NVIDIAら⁠AIエージェントが実ロボットで動作方策を自己改善する「ENPIRE」発表

NVIDIA、カーネギーメロン大学(CMU⁠⁠、カリフォルニア大学バークレー校(UC Berkeley)の研究者らは、AIコーディングエージェントが実ロボットを使って、ロボットを動かすための動作方策(policy)を自己改善する研究基盤「ENPIRE: Agentic Robot Policy Self-Improvement in the Real World」を発表した。環境リセット、ロボットでの試行、結果の検証、ログ分析、コード修正を一連のサイクルとして扱い、エージェントが人手を介さずに制御方法を改良していく仕組みを示している。

研究チームは、実世界での器用なロボット操作では、人間による監督やアルゴリズム設計が大きなボトルネックになっていると説明する。ENPIREは、物理環境でも繰り返し実験できるフィードバックループを用意し、実ロボットでの学習をエージェントが扱える最適化手続きにするためのハーネスフレームワークとして紹介されている。

自動リセットと自動評価で実ロボット実験を反復

ENPIREは、Environment(EN⁠⁠、Policy Improvement(PI⁠⁠、Rollout(R⁠⁠、Evolution(E)の4モジュールで構成される。Environmentはリセット、安全性、検証、ログ記録のインタフェースをエージェントに提供する。Policy Improvementは、報酬、動画、トレース、失敗例をもとに制御コードを生成・修正する。Rolloutは予算内でロボット試行を実行し、状態、行動、動画、結果を保存する。Evolutionは複数の分岐を比較し、成功した手法の再利用や、実機で失敗した仮説の枝刈りを行う。

こうした改善を実ロボットで進めるには、各試行の後に環境を初期状態へ戻し、結果を人間の判断なしで評価できる必要がある。ENPIREでは、自動評価が試行結果をスコア化し、自動リセットが次の試行に向けて環境を初期状態へ戻す。たとえば結束バンド(ジップタイ)の課題では、検出器とセグメンテーションモデルを使って結束バンドのヘッドとストラップを認識し、複数カメラの判定を統合して二値報酬を出す例が示されている。

この環境が整うと、エージェントは制御コードを編集し、実機で試し、失敗を確認して次の変更を決められる。制御方法を改善する手法としては、ヒューリスティック学習、ツール呼び出し、行動クローニング、オフラインまたはオンライン強化学習などを扱えるとしている。

Push-TやPin Insertion⁠結束バンドの締め付け⁠切断などで99%の成功率

研究チームによると、ENPIREで訓練した動作方策は、紹介されている操作課題において、pass@8(8回の試行のうち少なくとも1回成功する割合)が99%に達した。プロジェクトページには、Push-T(T字型の物体を押す操作課題⁠⁠、Pin Insertion(ピンを箱に収める課題⁠⁠、GPU挿入、結束バンドの締め付けや切断といった実世界の操作課題が掲載されている。

Wenli Xiao氏のX投稿では、文献調査、インフラ構築、訓練、自己検証、ログ分析、コード修正までをエージェントに任せられることを強調している。同投稿では、ロボット自身が提案したヒューリスティックに基づく成功信号だけを手がかりに、Pin Insertion、GPU挿入、結束バンドの締め付けなどの課題で99%に到達したとしている。

ENPIREでは、ロボットを直接動かすだけでなく、コーディングエージェントが実験基盤や制御コードを更新する。そのためプロジェクトページでは、Codex with GPT-5.5、Claude Code with Opus 4.7、Kimi Code with Kimi K2.6といったコーディングエージェントを比較するAutoEnvBenchも示されている。AutoEnvBenchは、最終的に得られた制御方法の成否だけでなく、Push-TとPin Insertionにおける研究進捗を時間軸で追跡できるベンチマークとして紹介されている。

ロボット群で成功までの時間を短縮⁠トークン消費は増加

ENPIREでは、エージェントチームとロボット台数を増やした場合のスケーリングも検証している。1、4、8エージェントの各チームをPush-TとPin Insertionで比較し、ロボット利用率、GPU利用率、トークン処理量、成功までの時間を示している。

Wenli Xiao氏は続く投稿で、ロボット工学で希少な資源はGPUではなく、実機を動かして試せる時間だと説明している。Pin Insertionでは、8台のロボットを使うことで、ほぼ完全な成功率に達するまでの時間が1台構成の1.5時間超から約40分に短縮したという。研究チームは、実ロボットを使ったAutoResearchの効率を見る指標として、平均ロボット利用率(MRU)と平均トークン利用率(MTU)も提案している。

ただし、プロジェクトページの「Limitations & Future Directions」では、エージェントがログ確認、コード作成、デバッグ、言語モデルの応答待ちをしている間、ロボットや計算資源を十分に活用できない課題も示している。ロボット台数が増えると平均ロボット利用率は低下し、単一ロボット構成に比べて、エージェントチームは他エージェントの分岐の要約や協調に時間を使うようになる。大規模なロボット群は成功までの時間を短縮できる一方、成功する制御方法を見つけるまでの総トークン消費は増えるという。

Jim Fan氏はX投稿で、8つのCodexエージェントにロボット群、GPU、トークン予算を与え、ロボットを稼働させながら安全を保ちつつ、できるだけ速く課題を解くよう指示したと説明している。同氏は、関連成果物をオープンソース化する予定にも触れている。

おすすめ記事

記事・ニュース一覧