Alibaba⁠オープンモデルとして最高レベルの推論能力をもつQwen3-235B-A22B-Thinking-2507をリリース

Alibabaは2025年7月23日、同社が開発するLLM「Qwen3」シリーズの最新推論モデルQwen3-235B-A22B-Thinking-2507をオープンソースとしてリリースした。

Qwen3-235B-A22B-Thinking-2507は、同社が3ヵ月間にわたってQwen3-235B-A22Bの思考能力を大幅に拡張し、推論の質と深さの両方を向上させたモデル。256KBのネイティブコンテキスト長により、深く長い形式の理解が可能となり、論理的推論、数学、科学、コーディング、そして通常は人間の専門知識を必要とする学術ベンチマークを含む推論タスクにおいて、パフォーマンスが大幅に向上した。

Qwen3-235B-A22B-Thinking-2507と従来モデル、および他社推論モデルとのベンチマーク比較
Qwen3-235B-A22B-Thinking-2507と従来モデル、および他社推論モデルとのベンチマーク比較

なお、このモデルは「思考モード」のみをサポートしている。また、指示への理解やツールの使用、テキスト生成、人間の嗜好への適合といった、一般的な理解能力が大幅に向上したとのこと。このため思考時間も従来モデルより長くなっており、同社では「非常に複雑な推論タスクへの使用」を勧めている。

Qwen3-235B-A22B-Thinking-2507では、新たな強化学習アルゴリズムとして「GSPO(Group Sequence Policy Optimization⁠⁠」を採用。GSPOは従来のGRPO(Group Relative Policy Optimization)がトークンレベルで重要度の比較を行っているのに対し、シーケンス(文章全体)の尤度(もっともさ)に基づいて重要度を定義し報酬付与、最適化を実行するもの。これにより、特にMixture-of-Experts(MoE)強化学習を安定化させ、強化学習インフラストラクチャの設計を簡素化する可能性をもたらすという。詳しくは以下の論文を参照。

Qwen3-235B-A22B-Thinking-2507はHuggeing Face等で公開されているほか、APIドキュメントも同社のドキュメントページで公開されている。

おすすめ記事

記事・ニュース一覧