OpenAI、ユーザーに代わってWebのタスクを実行するエージェント「Operator」のリサーチプレビュー版を発表 ―米国のProユーザが利用可能に

OpenAIは2025年1月24日、Webにアクセスしてユーザーに代わってタスクを実行できるエージェント「Operator」を発表した。現在はリサーチプレビュー版として米国内のProユーザ向けに提供されており、ユーザーからのフィードバックを受け改良を加えている。

Introducing Operator research preview | OpenAI

Introduction to Operator & Agentshttps://t.co/nbH7OMmkmO
— OpenAI (@OpenAI) January 23, 2025

Operatorは、Computer-Using Agent（CUA）と呼ばれる新しいモデルを採用し、GPT-4oの視覚機能と強化学習による推論を組み合わせることで、WebサイトのGUIと対話するようトレーニングされる。ユーザーはWebサイトで実行したいタスクを入力するだけで、OperatorはWebページを「見て⁠」⁠、マウスとキーボードで可能なすべてのアクションを使ってタスクを実行する。たとえばショッピングサイトで目的の品物を購入、発送手配をしたり、旅行予約サイトで航空券の予約を取るといった操作が可能になる。

このほか、カスタム指示を追加することで、ワークフローをカスタマイズできる。ユーザーはプロンプトを保存してホームページにすばやくアクセスできるため、足りない食品の補充などの繰り返しタスクにも適している。ブラウザで複数のタブを使用するように、Operatorに複数のタスクを同時実行させることができる。

A research preview of Operator, an agent that can use its own browser to perform tasks for you. pic.twitter.com/wkBBDIlVqj
— OpenAI (@OpenAI) January 23, 2025

今後は、開発者が独自のエージェントを構築できるように、OperatorのモデルであるCUAをAPIとして近日中に公開する予定。またユーザーのフィードバックを元に、安全性と使いやすさに一定の効果が認められたら、OperatorをPlus、Team、Enterpriseユーザーに拡張し、その機能をChatGPTに直接統合して、シームレスなリアルタイムおよび非同期タスク実行を実現する予定とのこと。