NVIDIA、カーネギーメロン大学
Today, we enable AutoResearch in the physical world for the first time! Introducing ENPIRE: we give 8 Codex agents a fleet of robots, an allocation of GPUs, and generous token budget. We set them free with a simple goal: solve the task as quickly as possible, keep the robots busy… pic.
— Jim Fan (@DrJimFan) June 16, 2026twitter. com/ zC0OQNzDBs
研究チームは、実世界での器用なロボット操作では、人間による監督やアルゴリズム設計が大きなボトルネックになっていると説明する。ENPIREは、物理環境でも繰り返し実験できるフィードバックループを用意し、実ロボットでの学習をエージェントが扱える最適化手続きにするためのハーネスフレームワークとして紹介されている。
自動リセットと自動評価で実ロボット実験を反復
ENPIREは、Environment
こうした改善を実ロボットで進めるには、各試行の後に環境を初期状態へ戻し、結果を人間の判断なしで評価できる必要がある。ENPIREでは、自動評価が試行結果をスコア化し、自動リセットが次の試行に向けて環境を初期状態へ戻す。たとえば結束バンド
この環境が整うと、エージェントは制御コードを編集し、実機で試し、失敗を確認して次の変更を決められる。制御方法を改善する手法としては、ヒューリスティック学習、ツール呼び出し、行動クローニング、オフラインまたはオンライン強化学習などを扱えるとしている。
Push-TやPin Insertion、結束バンドの締め付け・切断などで99%の成功率
研究チームによると、ENPIREで訓練した動作方策は、紹介されている操作課題において、pass@8
Wenli Xiao氏のX投稿では、文献調査、インフラ構築、訓練、自己検証、ログ分析、コード修正までをエージェントに任せられることを強調している。同投稿では、ロボット自身が提案したヒューリスティックに基づく成功信号だけを手がかりに、Pin Insertion、GPU挿入、結束バンドの締め付けなどの課題で99%に到達したとしている。
ENPIREでは、ロボットを直接動かすだけでなく、コーディングエージェントが実験基盤や制御コードを更新する。そのためプロジェクトページでは、Codex with GPT-5.
2/
— Wenli Xiao (@_wenlixiao) June 16, 202612
ENPIRE scales with the size of the agent team and compute, except the scarce resource here is robot time, not GPUs.
Give the agents 8 robots instead of 1, time-to-near-perfect on pin insertion drops from 1.5+ hours to ~40 minutes. These agents coordinate over Git: sharing… pic. twitter. com/ 9hO1x7Gwm8
ロボット群で成功までの時間を短縮、トークン消費は増加
ENPIREでは、エージェントチームとロボット台数を増やした場合のスケーリングも検証している。1、4、8エージェントの各チームをPush-TとPin Insertionで比較し、ロボット利用率、GPU利用率、トークン処理量、成功までの時間を示している。
Wenli Xiao氏は続く投稿で、ロボット工学で希少な資源はGPUではなく、実機を動かして試せる時間だと説明している。Pin Insertionでは、8台のロボットを使うことで、ほぼ完全な成功率に達するまでの時間が1台構成の1.
ただし、プロジェクトページの
Jim Fan氏はX投稿で、8つのCodexエージェントにロボット群、GPU、トークン予算を与え、ロボットを稼働させながら安全を保ちつつ、できるだけ速く課題を解くよう指示したと説明している。同氏は、関連成果物をオープンソース化する予定にも触れている。