Gemini 3.5 Flashがコンピュータ操作機能に対応

Googleは2026年6月24日、同社の高速モデルの最新バージョンGemini 3.5 Flashでコンピュータユース(コンピュータ操作機能)が組み込みツールとしてサポートされたことを発表した。

組み込まれたコンピュータユースの機能はGemini APIやGemini Enterprise Agent Platformを介して利用可能で、ブラウザ、モバイル、デスクトップ環境のすべてで使用できる。これにより、たとえばユーザーがAIエージェントに「このWebページを監査し、コードスニペットを実行して問題を発見して」と指示すると、AIエージェントがWebナビゲーションを行い、スクリーンショットを撮り、レポートを作成してもどってくるような操作が可能となる。APIからの利用についてはドキュメントを参照。コンピュータユースの機能をテストしたい場合はBrowserbaseがホストするデモ環境が利用できる。

意図せぬ操作を防ぐための安全性も考慮されており、ユーザーの確認が必要かどうかを判断するための安全性ポリシーを設定できる。またプロンプトインジェクションを検出するためスクリーンショットのピクセルをスキャンして、隠された敵対的なプロンプトの指示(⁠⁠前のコマンドを無視する」など)を探し、検出された場合に実行をブロックするオプトインの機能も実装されている。

ユーザーはコンピュータユースの機能を使うことで、継続的なソフトウェアテストや専門的なアプリケーションにおけるインテリジェントワークなど、長期的なエンタープライズ自動化タスクのパフォーマンスを向上させることができる。

おすすめ記事

記事・ニュース一覧