Hugging Face⁠理論物理学向け研究エージェント「physics-intern」公開

Hugging FaceのDavid Louapre氏は2026年5月12日、数学および理論物理学の研究問題に自律的に取り組む「physics-intern」をXで紹介した。自律的な科学研究のためのマルチエージェント型ハーネスとして提供されている。

physics-internは、自然言語で書かれた問題を受け取り、サブ問題への分解や導出、検証コードの作成・実行、得られた結果の批判的レビューを行い、検証済みの解答をまとめる。Louapre氏は投稿で、研究レベルの物理問題を扱うベンチマーク「CritPt」において、Gemini 3.1 Proのスコアが17.7%から31.4%に上昇し、新たな最高スコアを記録したとしている。これは、GPT 5.5 Proの30.6%を上回る水準となる。さらに同氏は5月20日の投稿で、Gemini 3.5 FlashをCritPtで試したところ、physics-internによりスコアが13.1%から22.9%に上昇したと紹介している。

Hugging FaceのLeandro von Werra氏も2026年5月21日のX投稿で、physics-internを「科学問題向けのシンプルなハーネス」と紹介し、任意のモデルをラップして専用サブエージェントを使うことで、ベースとなる推論モデルの性能を高められるとしている。GPT 5.5 Proについては、例外的にphysics-internハーネスの効果が見られなかったという。また、ハーネスによる能力向上はいずれモデル本体に吸収される可能性があるとしつつ、現時点では優れたハーネスの構築とツール統合に利点があるとの見方を示している。

physics-internには2つの研究モードがある。標準の「multi-agent pipeline」では、Surveyor、Planner、Orchestrator、Researcher、Computer、Reviewer、Deep Critic、Adjudicator、Formatterの9種類の専門的な役割が順番に処理を担い、もう一つの「Autophysicist」では、Research Managerが一時的なサブエージェントを派遣する軽量な単一エージェントループを使う。

multi-agent pipelineでは、Surveyorが問題の背景を整理し、Plannerが研究戦略を作り、Orchestratorが研究課題をResearcherまたはComputerに割り当てる。得られた証拠から作業仮説を組み立てた後、Reviewerが敵対的なレビューを行い、Deep Criticが研究方針や結果同士の整合性を監査する。検証済みとされた結果に異議が出た場合はAdjudicatorが扱い、最後にFormatterが最終回答をANSWER.mdとしてまとめる。

各エージェントは会話履歴を持ち越さず、呼び出しごとに新しいコンテキストから開始する。研究の状態は構造化されたResearchStateオブジェクトに集約され、作業用ワークスペースはGitでバージョン管理される。

性能評価で使われたCritPtは、現代物理学の研究レベルの推論課題を対象とするベンチマークで、凝縮系物理、量子物理、宇宙物理、統計物理、高エネルギー物理などを広く扱う。CritPtは71件のチャレンジと190件のチェックポイントを含むとされる。評価パイプラインでは、70件のテスト課題に対する回答一式を採点サーバーへ提出する。

physics-internが対応するLLMプロバイダーには、Anthropic、OpenAI、Google Gemini、Hugging Face Inference Providersが含まれる。利用にはPython 3.12以降とuvが必要で、各プロバイダーのAPIキーを環境変数に設定し、問題定義ファイルとモデルを指定してコマンドラインから実行できる。なお、GitHubリポジトリにはライセンスが設定されていないようなので注意が必要。

おすすめ記事

記事・ニュース一覧