Google、Gemini 3 Deep Thinkを更新し研究・エンジニアリング用途を強化 ——数学研究エージェント「Aletheia」など共同研究の取り組みも

Gemini 3 Deep Thinkの更新

GoogleのDeep Thinkチームは2026年2月12日、推論モード「Gemini 3 Deep Think」のモデルを更新したことを発表した。このモデルは、数学・物理学・化学の国際オリンピックや競技プログラミング、各種ベンチマークで非常に高いパフォーマンスを示している。また、明確なガードレールが存在しない問題や、データが不完全な困難な課題に対処できるよう推論を強化しているという。

Gemini 3 Deep Think: Advancing science, research and engineering - Google Blog

今回更新されたDeep Thinkモードは、競技プログラミングプラットフォームCodeforcesにおいてEloレーティング3455という数値を記録したほか、一般的な推論能力を測るARC-AGI-2では84.6%、フロンティアモデルをテストするHumanity’s Last Examにおいて、ツールなしで48.4%を達成している。さらに、国際数学オリンピック2025、国際物理オリンピック2025（筆記⁠）⁠、国際化学オリンピック2025（筆記）で金メダルレベルの結果を示している。

The latest Deep Think moves beyond abstract theory to drive practical applications.

It’s state-of-the-art on ARC-AGI-2, a benchmark for frontier AI reasoning.

On Humanity’s Last Exam, it sets a new standard, tackling the hardest problems across mathematics, science, and… pic.twitter.com/Cm0PYDd2Cn
— Google DeepMind (@GoogleDeepMind) February 12, 2026

実際の利用事例として、手描きのスケッチから複雑な形状をモデリングし、3Dプリント用ファイルを生成するエンジニアリング用途や、高度な数学論文内の論理的欠陥を特定する事例が紹介されている。

Gemini 3 Deep Thinkは、Google AI Ultraサブスクリプション加入のGeminiアプリ内で利用可能になっている。APIについては、アーリーアクセスプログラムを通じて関心表明を受け付けており、選定された研究者やエンジニア、企業向けに提供するとしている。

コラム⁠：進展し始める⁠、エージェントとの共同研究

Google DeepMindの発表によると、直近1週間でGemini 3 Deep Thinkを用いた研究に関する2本の論文を公開した（arXiv:2602.10177、arXiv:2602.03837⁠）⁠。これらの論文から、アルゴリズムや複雑な理論の証明においてAIが共同研究者として機能し始めていることがうかがえる。

Accelerating Mathematical and Scientific Discovery with Gemini Deep Think - Google DeepMind

6 months in, after the IMO-gold achievement, I’m very excited to share another important milestone: AI can help accelerate knowledge discovery in mathematics, physics, and computer science! We’re sharing Two new papers from @GoogleDeepMind and @GoogleResearch that explore how… https://t.co/JRhtHT2SVW pic.twitter.com/Y1xvo6cXI2
— Thang Luong (@lmthang) February 11, 2026

一つの論文では、Deep Thinkを基盤とした数学研究エージェント「Aletheia」が紹介されている。Aletheiaは、自然言語による検証機能を用いて解の生成と修正をエンドツーエンドで反復するアーキテクチャを採用している。Aletheiaを含む評価では、オリンピックレベルを超えた博士号レベルの演習でも、推論時の計算量を増やすほど性能が伸びる傾向を確認したという。また、Google検索などを駆使して文献をナビゲートするツール利用能力も備わっている。具体的な性能面では、推論時計算量の増加に伴いIMO-ProofBench Advancedのスコアが伸び、2026年1月時点のDeep Thinkが2025年7月時点（IMO金メダル相当）の版を大きく上回ったとしている。

一方で別の論文では、人間が直感を提示し、AIが証明を洗練させるAdvisorモデルや、反復的なVibe-Provingサイクルが提唱されている。これらにより、コンピュータサイエンスを含む複数分野で長年のボトルネックの解消に寄与したとのこと。具体的な成果例として以下が挙げられている。

2015年論文で提案された予想の反証：オンライン劣モジュラ最適化において10年来の未解決問題とされていた予想に対し、AIが3つのアイテムからなる組み合わせ論的な反例を構築し、反証に成功したという。
異分野の橋渡し：Max-Cut（最大カット）やSteiner Tree（シュタイナー木）問題において、Kirszbraunの定理など数学的に離れた分野の概念を適用し、行き詰まりを打破したとしている。
Erdős予想データベースの未解決問題：数学分野で、Bloom’s Erdős予想データベースにある未解決問題のうち4つを自律的に解決し、その結果が人間による一般化論文へつながったという。

さらにGoogle DeepMindは、科学的発見におけるAIの貢献度や自律性を可視化する「Human-AI Interaction (HAI) card」を提案した。モデルカードの考え方に着想を得たもので、専門家とAIがどのように相互作用したかをより適切に捉え、一般の人に対する透明性を高める狙いがある。プロンプトや対話履歴を記録・分類することで、研究プロセスにおけるAIの役割を透明化できるとしている。現時点では提案段階であり、コミュニティがさらに改良していくことを期待している。