ハーバード大学に所属するShanghua Gao氏、Ada Fang氏、Marinka Zitnik氏らは2026年5月28日、複数のAIエージェントが継続的な計算科学の研究を進めるプロジェクト
Introducing AutoScientists — a decentralized team of AI agents for long-running scientific experimentation. Powered by ClawInstitute.
— Shanghua Gao (@GaoShanghua) May 28, 2026
Most current AI scientist agents either run a single reasoning thread, or have a central planner assigning tasks. Real research isn't like that:… pic.twitter. com/ geOmiVfStn
実験状況とフォーラムを共有し、チームを自律的に再編成
AutoScientistsは、仮説の生成、実験の設計、コードの作成、アイデアの検証、失敗の分析、実験結果などの根拠に応じた方針転換をAIエージェントのチームで進める仕組みとして紹介されている。科学研究は仮説生成、実験設計、実行、修正を繰り返す探索プロセスであり、単一の推論スレッドで進むエージェントや、中央の計画役が作業を割り当てる仕組みでは、複数の研究方向を並行して試し、結果に応じて方針を変える動きに対応しにくいという。
この課題に対し、AutoScientistsでは全体の研究方針を1つの管理役が決めるのではなく、議論フェーズと実行フェーズを交互に進める。議論フェーズでは、各エージェントが共通の実験ログを参照し、共有フォーラムに実験案を投稿する。エージェントは計算資源を使う前に互いの案を批評し、有望な研究方向ごとにチームを作る。
We built AutoScientists like an effective research group. So, there is no central orchestrator. Agents read a shared experimental state, propose experiments on a forum, critique each other before committing compute, self-organize into teams around the most promising research… pic.
— Ada Fang (@AdaFang_) May 28, 2026twitter. com/ xZisxcNPXd
実行フェーズでは、各チームがそれぞれの研究方向で計算実験を並列に進める。実行後は、成功だけでなく失敗や行き止まりになった方向性もチーム間で共有する。ある方向が停滞した場合は再び議論に戻り、別の有望な方向へチームを組み直す。
AutoScientistsは、最終的なモデルやスコアだけでなく、どの仮説を試し、どの変更がなぜ失敗し、どの方向が行き詰まったのかという
生物医学分野の機械学習や言語モデル最適化で評価
著者らは生物医学情報学、化学、AI for Scienceを背景にしており、AutoScientistsの評価では、生物医学分野のデータを扱う機械学習、言語モデルのトレーニング最適化、タンパク質変異の有用性を予測するタンパク質適合性予測の3領域を取り上げている。
生物医学分野の評価には、医用画像、創薬、タンパク質工学、単一細胞
言語モデルのトレーニング最適化では、小規模なGPT実装であるGPT nanochatを使い、検証用の評価指標であるbits-per-byte
さらに、AutoScientistsで見つけた強い候補を出発点にする条件でも比較している。この条件では、autoresearchが100回の実験で有効な改善を見つけられなかったのに対し、AutoScientistsでは93回の実験で7件の改善が認められた。
タンパク質適合性予測では、タンパク質変異の予測手法を集めたベンチマーク
GitHubで実装、実行手順、評価タスクを公開
GitHubリポジトリには、AutoScientistsをClaude Codeのサブエージェントとして動かすために、エージェント環境のテンプレートや参照ファイルを置いたsystem/、実行用のlaunch.、手順をまとめたrunbook.、Python依存関係を示すrequirements.といったものが含まれている。実行にはNode.
GitHub上の実装では、この共有フォーラムに相当する基盤としてClawInstituteを使う。ClawInstituteは、AIエージェントが仮説を投稿し、実験を実行しながら科学研究で協働するためのオープンな研究ネットワークとして説明されている。
実行時には、npmパッケージのclawinstituteでローカルサーバーを起動し、別のシェルからClaude Code CLIにrunbook.を読ませて対象タスクと実行名を指定する。ローカルサーバー側では、実験ごとのワークショップ、ワークスペース、メッセージボード投稿を管理する。各エージェントはここを通じて、実験案、結果、失敗した方向性を共有する。
GitHub上のREADMEでは、エージェントを起動して結果を回収する役割はあるものの、研究方針の決定や、各タスクで扱う予測モデルの学習処理は担わないとされている。
前項で取り上げた各評価も、GPT nanochatの検証損失最適化を扱うtask-autoresearch/、24件の生物医学機械学習タスクを扱うtask-biomlbench/、ProteinGymのSpike適合性予測を扱うtask-protein-gym/としてリポジトリに含まれている。