皆さんrabbit r1を覚えていますでしょうか?
Teenage Engineeringによってデザインされたオレンジのキュートなハードウェアは唯一無二の存在でしたが、AIブームの走りだしにタイミング良く登場したこともあり、多くの人たちが実力以上の期待した結果、
しかし、開発元は、rabbit r1を見放すようなことはぜず根気良く開発を続けてきました。その成果として、2025年9月12日に
また、UIがカードベースとなり、タスクと状況がカードとして表示されるようになりました。以前は、状況を確認しようとした場合、必ず音声インターフェースを使い指示する必要がありましたが、カード表示だけで確認できるようになりました。
2026年1月に入ってからは、rabbit r1の新たな方向性を定めることになる可能性があるアップデートが行われました。rabbit r1のLarge Action Model(LAM)を進化させて、 Desktop Large Action Model
DLAMは、人の代わりに自然言語でPCを操作して、タスクを実行するというものです。具体的には、rabbit r1とPCをUSBケーブルで接続して、rabbit r1がPCをリモート操作するという代物です。
rabbit r1単体の場合は、対応するサービスの少なさが課題で、これが使えないと言われる理由の1つでもありましたが、DLAMはPCを直接操作するので、これも解決するというわけです。うまく機能すれば、ひと声かければ、PCを操作して仕事を済ませてくれる最高のエージェントになります。DLAMが動作している間は、PCを空け渡す必要があるので、本格運用には専用のPCを別に与える必要があります。
従来の自動化スクリプトとは一線を画す
DLAMの基礎は、Vision Language Model
これは、視覚情報を言語の分脈で理解するモデルで、以下の切り口でPCの画面を理解して操作します。
- 画面の中央に保存ボタンがあるなどの位置関係を把握する
「空間理解」 - 画面上のアイコンは左矢印の形をしているから、戻るボタンだろうと推測する
「セマンティック理解」 - ユーザはブラウザを開いてニュースサイトを表示しており、記事を読んでいるとする
「分脈の把握」
従来、自動化にはRPAを使うことが多くありました。RPAは座標位置や解析した要素など、あらかじめ用意されたデータを頼りにして操作するため、Webサイトであればデザインが変わると使えなくなる問題があります。しかし、VLMの場合、人が理解してPCを操作する分脈に近いので、複雑な操作だけでなく新しい画面にも対応できて、RPAのような問題はありません。
もう1つ利点があります。
APIの連携で動作するエージェントでは、APIで操作できる範囲がエージェントが機能する範囲で、場合によっては人ができることとギャップがあり、これが不満の1つにもなりました。VLMの場合は、人が画面を見て操作するのと同じことができるので、人ができることとギャップのないエージェントが構築できます。
実際のところは、どうなのか?
足元の状況も触れておきます。
まず、PCを操作する権限をrabbit r1に与えるので、不測の事態が発生する可能性を理解する必要があります。
筆者の例を紹介すると、音声を誤認識したのか突然
また、応答速度にも課題が残ります。
知りたい・
知りたい・
