DeepSeek、マルチモーダル画像生成AIモデルJanus-Proをオープンソースとして公開 ―DALL-E 3、Stable Diffusionに匹敵するパフォーマンス

DeepSeekは2025年1月27日、マルチモーダルで画像生成が可能なAIモデルJanus-Proをオープンソースとして公開した。

Janus-Proは、マルチモーダルでの入力と画像生成を統合して処理する単一の変換アーキテクチャをもちながら、映像エンコーディングを画像の解釈と生成で別の経路に分離することで、映像エンコーダの競合を軽減し、フレームワークの柔軟性を向上させている。さらに最適化されたトレーニング戦略、拡張されたトレーニングデータ、より大きなモデルサイズへのスケーリングにより、同等のアーキテクチャをもつ従来の統合モデルに匹敵するか、上回るパフォーマンスをもつようになったという。

DeepSeekは1月20日に推論型LLM「DeepSeek-R1」をリリース公開した中国のAIスタートアップ。競合ベンダのフラッグシップに匹敵するモデルを立て続けにオープンソースで公開し、話題を呼んでいる。Janus-Proも同様にMITライセンスの元GitHub上で公開されているほか、HuggingFace上でパラメータ数10億のJanus-Pro-1Bと同70億のJanus-Pro-7Bが公開されている。

DeepSeekが公開しているJanus-Proシリーズのベンチマーク結果。左のグラフはJanus-Proのパラメータ数あたりのパフォーマンスが高いことを示している。また、右のグラフではテキスト-画像生成でプロンプト指示内容の理解精度において、Janus-Pro-7BがOpenAIのDALL-E3やStability AIのStable Diffusion XLを上回る結果をマークしている。

なおJanus-Proモデルの使用については、DeepSeek Model Licenseが適用される。