Android Weekly Topics

使えないウサギは返上か? DLAMでrabbit r1は逆転できるのか

皆さんrabbit r1を覚えていますでしょうか?

Teenage Engineeringによってデザインされたオレンジのキュートなハードウェアは唯一無二の存在でしたが、AIブームの走りだしにタイミング良く登場したこともあり、多くの人たちが実力以上の期待した結果、⁠スマホの劣化版」と厳しい評価を下された製品でした。

しかし、開発元は、rabbit r1を見放すようなことはぜず根気良く開発を続けてきました。その成果として、2025年9月12日に「rabbitOS 2」をリリースしました。これは、操作体系が再定義されて、タッチとホイールの両方で操作ができるようになり使いやすくなりました。

また、UIがカードベースとなり、タスクと状況がカードとして表示されるようになりました。以前は、状況を確認しようとした場合、必ず音声インターフェースを使い指示する必要がありましたが、カード表示だけで確認できるようになりました。

2026年1月に入ってからは、rabbit r1の新たな方向性を定めることになる可能性があるアップデートが行われました。rabbit r1のLarge Action Model(LAM)を進化させて、 Desktop Large Action Model(DLAM⁠の機能をリリースして、PCを直接操作するエージェントへと進化しようとしています。

DLAMは、人の代わりに自然言語でPCを操作して、タスクを実行するというものです。具体的には、rabbit r1とPCをUSBケーブルで接続して、rabbit r1がPCをリモート操作するという代物です。

rabbit r1単体の場合は、対応するサービスの少なさが課題で、これが使えないと言われる理由の1つでもありましたが、DLAMはPCを直接操作するので、これも解決するというわけです。うまく機能すれば、ひと声かければ、PCを操作して仕事を済ませてくれる最高のエージェントになります。DLAMが動作している間は、PCを空け渡す必要があるので、本格運用には専用のPCを別に与える必要があります。

従来の自動化スクリプトとは一線を画す

DLAMの基礎は、Vision Language Model(VLM)です。

これは、視覚情報を言語の分脈で理解するモデルで、以下の切り口でPCの画面を理解して操作します。

  1. 画面の中央に保存ボタンがあるなどの位置関係を把握する「空間理解」
  2. 画面上のアイコンは左矢印の形をしているから、戻るボタンだろうと推測する「セマンティック理解」
  3. ユーザはブラウザを開いてニュースサイトを表示しており、記事を読んでいるとする「分脈の把握」

従来、自動化にはRPAを使うことが多くありました。RPAは座標位置や解析した要素など、あらかじめ用意されたデータを頼りにして操作するため、Webサイトであればデザインが変わると使えなくなる問題があります。しかし、VLMの場合、人が理解してPCを操作する分脈に近いので、複雑な操作だけでなく新しい画面にも対応できて、RPAのような問題はありません。

もう1つ利点があります。

APIの連携で動作するエージェントでは、APIで操作できる範囲がエージェントが機能する範囲で、場合によっては人ができることとギャップがあり、これが不満の1つにもなりました。VLMの場合は、人が画面を見て操作するのと同じことができるので、人ができることとギャップのないエージェントが構築できます。

実際のところは⁠どうなのか?

足元の状況も触れておきます。

まず、PCを操作する権限をrabbit r1に与えるので、不測の事態が発生する可能性を理解する必要があります。

筆者の例を紹介すると、音声を誤認識したのか突然「ファイルの削除を行います。しばらくお待ちください」と言い始めて考え始めたので、すぐさまキャンセルと伝えて作業を中止したのと、PCと接続しているケーブルを抜いたことがあります。現状は、サンドボックス化する仕組みが提供されていないので、これが本当に動作したら大惨事になるところでした。

また、応答速度にも課題が残ります。

知りたい・やりたいことに対して、知見を持つタスクを実行する場合は、自身で操作した方が早く済みます。例えば、特定区間の運賃を調べるタスクであればDLAMを使う必要はありません。

知りたい・やりたいことに対して知見を持たず、時間がかかっても良いタスクであれば、DLAMに任せると直的な回答だけでなく、回答に関連する情報も教えてくれるので便利に使えます。

おすすめ記事

記事・ニュース一覧