科学研究向けAIエージェントチーム「AutoScientists」公開 —⁠—仮説生成⁠実験設計⁠失敗分析を自律的に進める

ハーバード大学に所属するShanghua Gao氏、Ada Fang氏、Marinka Zitnik氏らは2026年5月28日、複数のAIエージェントが継続的な計算科学の研究を進めるプロジェクト「AutoScientists」を発表した。arXivには2026年5月27日付で論文AutoScientists: Self-Organizing Agent Teams for Long-Running Scientific Experimentationが投稿されている。プロジェクトページが公開されているほか、コードはGitHubで公開されている。

実験状況とフォーラムを共有し⁠チームを自律的に再編成

AutoScientistsは、仮説の生成、実験の設計、コードの作成、アイデアの検証、失敗の分析、実験結果などの根拠に応じた方針転換をAIエージェントのチームで進める仕組みとして紹介されている。科学研究は仮説生成、実験設計、実行、修正を繰り返す探索プロセスであり、単一の推論スレッドで進むエージェントや、中央の計画役が作業を割り当てる仕組みでは、複数の研究方向を並行して試し、結果に応じて方針を変える動きに対応しにくいという。

この課題に対し、AutoScientistsでは全体の研究方針を1つの管理役が決めるのではなく、議論フェーズと実行フェーズを交互に進める。議論フェーズでは、各エージェントが共通の実験ログを参照し、共有フォーラムに実験案を投稿する。エージェントは計算資源を使う前に互いの案を批評し、有望な研究方向ごとにチームを作る。

実行フェーズでは、各チームがそれぞれの研究方向で計算実験を並列に進める。実行後は、成功だけでなく失敗や行き止まりになった方向性もチーム間で共有する。ある方向が停滞した場合は再び議論に戻り、別の有望な方向へチームを組み直す。

AutoScientistsは、最終的なモデルやスコアだけでなく、どの仮説を試し、どの変更がなぜ失敗し、どの方向が行き詰まったのかという「研究の軌跡」も残す。Ada Fang氏はXへの投稿で、AutoScientistsの出力は単なる最良モデルではなく、実験ノートに近いものになると述べている。

生物医学分野の機械学習や言語モデル最適化で評価

著者らは生物医学情報学、化学、AI for Scienceを背景にしており、AutoScientistsの評価では、生物医学分野のデータを扱う機械学習、言語モデルのトレーニング最適化、タンパク質変異の有用性を予測するタンパク質適合性予測の3領域を取り上げている。

生物医学分野の評価には、医用画像、創薬、タンパク質工学、単一細胞(シングルセル)オミクスにまたがる24件の課題で構成されるベンチマーク「BioML-Bench」を使った。ここでいう課題は、AIエージェントが課題文を読み、予測用の機械学習モデルを作り、実際の生物医学データで学習し、予測を提出する一連の作業を指す。AutoScientistsは24件すべてを完了し、公開リーダーボード上の相対順位を平均した指標で74.4%に達した。比較対象となる既存エージェントの平均は66.1%だった。

言語モデルのトレーニング最適化では、小規模なGPT実装であるGPT nanochatを使い、検証用の評価指標であるbits-per-byte(val_bpb)を改善できるかを比べた。この指標は低いほどよい。AutoScientistsは34回の実験で目標値に到達し、既存の単一エージェント型の自動研究手法であるautoresearchの65回より少ない実験で済んだ。

さらに、AutoScientistsで見つけた強い候補を出発点にする条件でも比較している。この条件では、autoresearchが100回の実験で有効な改善を見つけられなかったのに対し、AutoScientistsでは93回の実験で7件の改善が認められた。

タンパク質適合性予測では、タンパク質変異の予測手法を集めたベンチマーク「ProteinGym」を使った。ACE2–Spikeの結合に関する評価で、Spearman相関が0.747から0.840へ改善した。さらに、ACE2–Spike向けに得た手順を変更せず、ProteinGymに含まれる217件すべての評価へ適用した場合も、平均Spearman相関が0.657から0.700へ上がった。

GitHubで実装⁠実行手順⁠評価タスクを公開

GitHubリポジトリには、AutoScientistsをClaude Codeのサブエージェントとして動かすために、エージェント環境のテンプレートや参照ファイルを置いたsystem/、実行用のlaunch.py、手順をまとめたrunbook.md、Python依存関係を示すrequirements.txtといったものが含まれている。実行にはNode.js 22以降、Python 3.9以降、Claude Code CLIなどが必要になる。

GitHub上の実装では、この共有フォーラムに相当する基盤としてClawInstituteを使う。ClawInstituteは、AIエージェントが仮説を投稿し、実験を実行しながら科学研究で協働するためのオープンな研究ネットワークとして説明されている。

実行時には、npmパッケージのclawinstituteでローカルサーバーを起動し、別のシェルからClaude Code CLIにrunbook.mdを読ませて対象タスクと実行名を指定する。ローカルサーバー側では、実験ごとのワークショップ、ワークスペース、メッセージボード投稿を管理する。各エージェントはここを通じて、実験案、結果、失敗した方向性を共有する。

GitHub上のREADMEでは、エージェントを起動して結果を回収する役割はあるものの、研究方針の決定や、各タスクで扱う予測モデルの学習処理は担わないとされている。

前項で取り上げた各評価も、GPT nanochatの検証損失最適化を扱うtask-autoresearch/、24件の生物医学機械学習タスクを扱うtask-biomlbench/、ProteinGymのSpike適合性予測を扱うtask-protein-gym/としてリポジトリに含まれている。

おすすめ記事

記事・ニュース一覧