Sakana AIは2025年7月1日、既存のフロンティアモデルを利用して
AIの推論時にどれだけ計算資源を投入できるか
Sakana AIは今回、異なるLLMが生成する多様な解答候補を
今回開発されたAB-MCTSは、モンテカルロ木探索
実際、抽象的なパターン認識や推論力を問うARC-AGI-2ベンチマークの多くにおいて、単一LLMでは解けなかったケースが複数モデルの協調によって解決したという。たとえば、o4-miniが最初に誤った解答を出した場合でも、その出力をDeepSeek R1-0528やGemini-2.
この結果、単純な繰り返し生成
The Multi-LLM AB-MCTS combination of o4-mini + Gemini-2.
— hardmaru (@hardmaru) July 1, 20255-Pro + DeepSeek-R1-0528, current frontier AI models, achieves strong performance on the ARC-AGI-2 benchmark, outperforming individual models by a large margin.
Implementation of AB-MCTS on GitHub:https://t. pic.co/ QBe29f5YmC twitter. com/ waGqNOVtyP
TreeQuestライブラリとab-mcts-arc2
AB-MCTSおよびMulti-LLM AB-MCTSの実装は、以下の2つのリポジトリで公開されている。いずれもライセンスはApache License 2.
- TreeQuest:AB-MCTSおよびMulti-LLM AB-MCTSを含む、柔軟なノード生成やスコアリングが可能な汎用ツリー探索ライブラリ。
- ab-mcts-arc2:ARC-AGI-2ベンチマーク用の自動実験・
可視化フレームワーク。実験パラメータ (探索ノード数、アルゴリズム種別、並列数など) はスクリプト内で調整可能。