Alibaba Qwen、エージェント向け言語世界モデル「Qwen-AgentWorld」をリリース

Alibaba Qwen Teamは2026年6月22日、7つのドメインでエージェント環境をシミュレートするネイティブ言語世界モデル「Qwen-AgentWorld」をリリースした。

Qwen-AgentWorld: Language World Models for General Agents -Qwen

📣📣 Meet Qwen-AgentWorld — a native language world model that simulates 7 agent environments (MCP, Search, Terminal, SWE, Web, OS, Android) within a single model. Environment modeling is the training objective from day one, not a post-hoc adaptation.

🤔 LLMs are trained to be… pic.twitter.com/ahvxH66uxT
— Qwen (@Alibaba_Qwen) June 24, 2026

世界モデル（World Model）は、LLMなどの言語モデルがテキストデータから「単語の並びの確率」を学習するのに対して、物理学や空間特性などの実世界のデータから因果関係や物理法則結果を学習・推論するAIモデル。Qwen-AgentWorldは、テキストベースのMCP、検索、ターミナル、SWE（Software Engineering⁠）⁠、そしてGUIベースであるAndroid、Web、OSの7つのドメインから長い思考連鎖推論を通じて、エージェント環境をシミュレートするネイティブ言語の世界モデルである。

Qwen-AgentWorldは、世界モデリングを事後的なアドオンとして扱う従来のアプローチとは異なり、1000万を超える実世界のインタラクションにもとづいて、CPT（継続的事前トレーニング）で環境知識を注入、SFT（教師ありファインチューニング）で次の状態予測推論を活性化し、RL（強化学習）がシミュレーションの忠実度を高めるという3段階のパイプラインでトレーニングされている。

言語モデル型のエージェントは対話型環境で動作するように訓練されているが、現在の状態とエージェントの行動に基づいて次に何が起こるかを予測する、といった環境自体をモデル化するように訓練された言語モデルは存在しない。Qwen-AgentWorldは、言語モデルに基づいて構築された世界モデルが、汎用エージェントの能力の限界をさらに押し広げる方法を調査する試みとして開発されている。

このモデルを評価するために、実環境で得られた正解データとペアになった7つのドメインの評価ベンチマークであるAgentWorldBenchも合わせて公開された。同社がAgentWorldBenchで行ったテストでは、Qwen-AgentWorldの上位モデルであるQwen-AgentWorld-397B-A17BがGPT-5.4、Claude Opus 4.8、Gemini 3.1 Proを上回るパフォーマンスを記録したという。

Qwen-AgentWorldでオープンソースとして公開されているのは「Qwen-AgentWorld-35B-A3B」（⁠350億パラメータ/30億アクティブパラメータ、256Kのコンテキストウィンドウ、MoEモデル⁠）⁠。以下で公開されている。

またAgentWorldBenchも同様にオープンソースとして公開されている。