Hugging FaceのDavid Louapre氏は2026年5月12日、数学および理論物理学の研究問題に自律的に取り組む
- physics-intern: an Autonomous Agent for Physics Research - Hugging Face Space
- huggingface/
physics-intern - GitHub Repository
physics-internは、自然言語で書かれた問題を受け取り、サブ問題への分解や導出、検証コードの作成・
Meet physics-intern🧑🎓, our agentic framework for theoretical physics.
— David Louapre (@dlouapre) May 12, 2026
It takes Gemini 3.1 Pro from 17. 7% to 31. 4% on CritPt, a new SOTA on one of the hardest benchmarks for LLMs.
Theoretical physics is hard for humans and LLMs alike. But physics-intern decomposes problems and… pic.twitter. com/ QUHb6RhyeD
Hugging FaceのLeandro von Werra氏も2026年5月21日のX投稿で、physics-internを
physics-internには2つの研究モードがある。標準の
multi-agent pipelineでは、Surveyorが問題の背景を整理し、Plannerが研究戦略を作り、Orchestratorが研究課題をResearcherまたはComputerに割り当てる。得られた証拠から作業仮説を組み立てた後、Reviewerが敵対的なレビューを行い、Deep Criticが研究方針や結果同士の整合性を監査する。検証済みとされた結果に異議が出た場合はAdjudicatorが扱い、最後にFormatterが最終回答をANSWER.としてまとめる。
各エージェントは会話履歴を持ち越さず、呼び出しごとに新しいコンテキストから開始する。研究の状態は構造化されたResearchStateオブジェクトに集約され、作業用ワークスペースはGitでバージョン管理される。
性能評価で使われたCritPtは、現代物理学の研究レベルの推論課題を対象とするベンチマークで、凝縮系物理、量子物理、宇宙物理、統計物理、高エネルギー物理などを広く扱う。CritPtは71件のチャレンジと190件のチェックポイントを含むとされる。評価パイプラインでは、70件のテスト課題に対する回答一式を採点サーバーへ提出する。
physics-internが対応するLLMプロバイダーには、Anthropic、OpenAI、Google Gemini、Hugging Face Inference Providersが含まれる。利用にはPython 3.uvが必要で、各プロバイダーのAPIキーを環境変数に設定し、問題定義ファイルとモデルを指定してコマンドラインから実行できる。なお、GitHubリポジトリにはライセンスが設定されていないようなので注意が必要。