Alibaba、画像生成AIモデル「Qwen-Image」をリリース ―精度の高い画像生成・編集機能と強力なテキストレンダリング機能を両立

Alibabaは2025年8月4日、200億パラメータをもつ新たな画像生成AIモデル「Qwen-Image」を公開した。

Qwen-Image: Crafting with Native Text Rendering | Qwen

🚀 Meet Qwen-Image — a 20B MMDiT model for next-gen text-to-image generation. Especially strong at creating stunning graphic posters with native text. Now open-source.

🔍 Key Highlights:
🔹 SOTA text rendering — rivals GPT-4o in English, best-in-class for Chinese
🔹 In-pixel… pic.twitter.com/zT9CFLzWkV
— Qwen (@Alibaba_Qwen) August 4, 2025

Qwen-ImageはMMDiT（Multimodal Diffusion Transformer）という技術を採用。これはイメージとテキストを扱う2つのTransformerが協調しつつ並列動作するもので、Stability AIのStable Diffusion 3に搭載された技術。Qwen-Imageはこれにより、以下のような特徴をもつ。

高精度な画像生成/編集: リアリスティックな画像や印象派の絵画、アニメ風やデザインまで多彩な画像を指示された文脈から表現できるほか、オブジェクト検出、セマンティックセグメンテーション、深度とエッジ推定、新規ビュー合成、超解像などの画像解析タスクをサポートし、高度視覚理解に基づくインテリジェントな画像編集が可能。
優れたテキストレンダリング: Qwen-Imageは、複数行レイアウト、段落レベルのセマンティクス、きめ細かなディテールなど複雑なテキストレンダリングに対応。英語などアルファベット言語はもちろん、中国語など表意文字言語も高い忠実度でサポートし、文脈に応じてさまざまな書体などで表現することも可能。

また、同社が行った複数の公開ベンチマークにおいて、多様な画像生成・編集タスクでGPT Image 1やFLUX.1[Dev]、Seedream 3.0といった既存のモデルを上回る性能を記録しているとのこと。

Qwen-ImageはApache 2.0ライセンスの元GitHub上でオープンソースとして公開されているほか、Hugging Face、ModelScopeでも入手できる。また、同社のQwen Chatでも試すことができる。