Sakana AI、フロンティアモデルの「集合知」と「試行錯誤」で難問解決力・推論精度の向上を発表

Sakana AIは2025年7月1日、既存のフロンティアモデルを利用して「集合知」と「試行錯誤」を組み合わせ、難問に対する推論精度を高める新手法AB-MCTS（Adaptive Branching Monte Carlo Tree Search）および、複数のモデルを動的に使い分ける拡張版であるMulti-LLM AB-MCTSを発表した。

「集合知」と「試行錯誤」によるフロンティアAIの推論時スケーリング - Sakana AI

昨今、AIの推論時にどれだけ計算資源を投入できるか（推論時スケーリング；Inference-Time Scaling, Test-Time Scaling）は、難問に対するAIの性能向上の重要な要素である。推論時スケーリングができるほど、モデルの生成や試行の回数・多様性を増やすことができ、より高い精度や柔軟な解決策が得られる。

Sakana AIは今回、異なるLLMが生成する多様な解答候補を「集合知」として統合し、それぞれが強みを活かして生成・評価・修正を繰り返しながら最適解を探索する「試行錯誤」により難問を解決する手法を開発した[1]。

今回開発されたAB-MCTSは、モンテカルロ木探索（MCTS）[2]アルゴリズムを基盤とし、トンプソンサンプリング[3]を用いて状況に応じて探索戦略（改良か新規生成か）を動的に切り替える（Adaptive Branching）手法で、LLMを用いた「深さ方向」の解答改良と「幅方向」の新規解答生成を統合的に扱う点が特徴。さらに、複数のLLMを用いる場合に、探索の第三軸として「どのLLMを使用するか」を動的に選択できるようにしたのがMulti-LLM AB-MCTSであり、それにより異なるモデルの強みを問題ごとに柔軟に活用できるようになった。

実際、抽象的なパターン認識や推論力を問うARC-AGI-2ベンチマークの多くにおいて、単一LLMでは解けなかったケースが複数モデルの協調によって解決したという。たとえば、o4-miniが最初に誤った解答を出した場合でも、その出力をDeepSeek R1-0528やGemini-2.5-Proがヒントとして活用し、最終的に正答に到達した事例を確認したとのこと。

この結果、単純な繰り返し生成（Repeated Sampling）ではo4-miniのPass@250（250回の試行で少なくとも1回正答できる確率）が23%だったのに対し、AB-MCTSでは27.5%、Multi-LLM AB-MCTS（o4 mini＋Gemini 2.5 Pro＋DeepSeek R1-0528等の組み合わせ）では30%超に向上したことを示した。また、LLM呼び出し回数が増えるほど、複数モデルの協調による効果があった。

The Multi-LLM AB-MCTS combination of o4-mini + Gemini-2.5-Pro + DeepSeek-R1-0528, current frontier AI models, achieves strong performance on the ARC-AGI-2 benchmark, outperforming individual models by a large margin.

Implementation of AB-MCTS on GitHub:https://t.co/QBe29f5YmC pic.twitter.com/waGqNOVtyP
— hardmaru (@hardmaru) July 1, 2025

TreeQuestライブラリとab-mcts-arc2

AB-MCTSおよびMulti-LLM AB-MCTSの実装は、以下の2つのリポジトリで公開されている。いずれもライセンスはApache License 2.0。

TreeQuest：AB-MCTSおよびMulti-LLM AB-MCTSを含む、柔軟なノード生成やスコアリングが可能な汎用ツリー探索ライブラリ。
ab-mcts-arc2：ARC-AGI-2ベンチマーク用の自動実験・可視化フレームワーク。実験パラメータ（探索ノード数、アルゴリズム種別、並列数など）はスクリプト内で調整可能。