Anthropic、AIモデルで“コンピュータの操作”を実現 ―アップグレード版Claude 3.5 Sonnet、高速モデルClaude 3.5 Haikuをリリース

Anthropicは2024年10月23日、同社の生成AIモデルClaude 3.5 Sonnetのアップグレードと、高速なAIモデルの新バージョンとなるClaude 3.5 Haikuのリリースを発表した。

アップグレードされたClaude 3.5 Sonnetは前モデルに比べて全面的に改良されており、特にコーディングに関する性能が向上した。コーディング性能を評価する各種ベンチマークの値が向上している。また新バージョンとなる高速モデルのClaude 3.5 Haikuは、以前の最大モデルであるClaude 3 Opusに匹敵するパフォーマンスを発揮しながら前世代のHaikuと同じコストと速度を達成している。

アップグレード版Claude 3.5 Sonnetはすでにすべてのユーザーが利用可能となっており、Anthropic API、Amazon Bedrock、Google CloudのVertex AIで、後述の「コンピューターの操作」を使用してシステムを構築できる。具体的な方法についてはGitHubで公開されているドキュメントを参照。またClaude 3.5 Haikuは10月後半にリリースされる予定。

生成AIがプロンプトに従いコンピュータを操作

今回発表されたClaude 3.5 Sonnetアップグレード版の大きな特徴が、コンピュータの操作が可能となった点である（現在はこの機能はパブリックベータ⁠）⁠。ユーザーの指示に従ってコンピューターの画面上でカーソルを移動し、関連する場所をクリックし、仮想キーボードで情報を入力できる。一般的なコンピュータースキルをClaudeに学習させ、人間向けに設計されたさまざまなツールやソフトウェアを使用できるようにするという。

このために、実際にClaudeがコンピュータインタフェースを認識して操作できるようにするAPIを構築した。開発者はこのAPIを統合して、Claudeが指示（⁠「⁠コンピューターとオンラインのデータを使用してこのフォームに入力する」など）をコンピュータの操作（スプレッドシートを確認する、カーソルを移動してWebブラウザーを開く、関連するWebページに移動、それらのページのデータを使用してフォームに入力する、など）に変換できるようになった。ただし、スクロール、ドラッグ、ズームなどの操作は実現が難しく、現状の課題となっている。同社によると、この点も今後数ヵ月以内に改善可能とのこと。

また、この機能には安全上の新たなリスクがあることを同社も認めており、安全レベルの評価やその対策を検討中としている。さらにパブリックベータでの使用を通じて、ユーザーの慎重な対応や安全に関するフィードバックも期待しているという。