xAI⁠AIモデル「Grok 3」ベータ版を発表 ―推論型モデル⁠高効率モデルもラインナップ

xAIは2025年2月19日、同社のAIモデルGrokの最新バージョンとなるGrok 3ベータ版を発表した。

Grok 3は10万台のNVIDIA Hopper GPUで構成されるAIスーパークラスター「Colossus」を用いてトレーニングされたAIモデルで、推論、数学、コーディング、世界知識、インストラクションタスクにおいて前モデルがら大幅な性能アップを果たしている。推論機能により、数秒から数分考えることで、エラーを修正、代替案を探索し、正確な回答が得られるという。

今回発表されたのはGrok 3の推論モデルであるGrok 3 (Think)と、よりコスト効率の高いGrok 3 mini (Think)の2つのベータ版。どちらのモデルもまだトレーニング中だが、まざまなベンチマークで優れた結果を示しているという。Grok 3 (Think)に数学の競技試験であるAIME(2025年)を解かせたところ、cons@64(64回の試行で最も多く出現した回答で評価)で93.3%の正答率を出している。また大学院レベルの専門的推論(GPQA)で84.6%、コード生成と問題解決のLiveCodeBenchでも79.4%の正答率と達成したとのこと。

Grok 3の推論機能は「Think」ボタンを押すだけで使用できる。またGrok 3(Think)の思考過程は完全にオープンにされており、ユーザーは最終的な答えだけでなく、モデル自体の推論プロセスも辿ることができるようになっている。

Grok 3の推論機能のテストとして、⁠2つのクラシックなゲームを組み合わせたゲームを、pygameを使って見ため良く作成してください」という問いかけに対して、6分間の間に以下のゲームを検討し、

  1. パックマン+スペースインベーダー
  2. テトリス+スネークゲーム
  3. PONG(ビデオ卓球)+ブロック崩し
  4. パックマン+スネークゲーム
  5. テトリス+PONG

最終的に3番目の「PONG+ブロック崩し」のルールを検討してコードを生成、実行デモまで作った際の思考過程が紹介されている。

Grok 3が作成した「PONG+ブロック崩し」ゲーム
PONG+ブロック崩し

Grok 3は現在、𝕏およびGrok.comの𝕏 PremiumとPremium+ユーザーに提供されている。𝕏 Premium+ユーザーは、推論機能やGrok 3を使ったAIエージェントサービスDeepSearchにも近日中にアクセスできるようになる。さらに、Grok 3の機能はすべてのGrokユーザーに制限付きで展開される予定。

おすすめ記事

記事・ニュース一覧