Microsoft⁠マルチモーダル小型モデルPhi-4-multimodalと高パフォーマンス小型モデルPhi-4-miniを発表

Microsoftは2025年2月26日、同社が開発するSLM(小型言語モデル⁠⁠ Phiファミリーの新モデルとなるPhi-4-multimodalとPhi-4-miniを発表した。

Phi-4-multimodal ―複数のモード入力を同時に理解⁠推論できるモデル

Phi-4-multimodalは56億パラメータをもつ同社初のマルチモーダル言語モデル。音声、視覚、テキスト処理を1つのアーキテクチャにシームレスに統合しており、複数の入力モードを同時に理解して推論できる。テキスト情報の処理、音声での言語の解釈、画像の分析のすべてでデバイス上での実行を最適化し、計算オーバヘッドを削減しながら効率的で低遅延の推論を実現している。

また、音声に関するタスクに優れており、自動音声認識(ASR)と音声翻訳(ST)で、専用モデルであるWhisperV3やSeamlessM4T-v2-Largeなどを上回る性能をもつという。さらに、音声要約ではGPT-4oに匹敵するパフォーマンスを達成したとのこと。一方、モデルサイズが小さいため、音声による質問応答(QA)タスクではGemini-2.0-FlashやGPT-4o-realtime-previewなどとまだ差があり、現在この機能を改善するための作業が行われている。

Phi-4-mini ―テキストベースで高パフォーマンスを発揮するコンパクトモデル

Phi-4-miniは38億パラメータの、スピードと効率性を重視した高密度のデコーダーをもつコンパクトモデル。推論、数学、コーディング、命令の追跡、関数呼び出しなどのテキストベースのタスクでより大きなモデルよりも優れたパフォーマンスを発揮するという。

ユーザーがリクエストを行うとPhi-4-Miniはクエリを推論し、関連する関数を識別して呼び出して出力を受信、その結果を応答に組み込むことができる。これにより、拡張可能なエージェントベースのシステムを構築でき、外部ツールやAPI、外部データソースに接続してモデルを強化することもできる。


Phi-4-multimodalとPhi-4-miniは現在Azure AI FoundryHuggingFace、およびNVIDIA API Catalogで試すことができる。

おすすめ記事

記事・ニュース一覧