Microsoft、マルチモーダル小型モデルPhi-4-multimodalと高パフォーマンス小型モデルPhi-4-miniを発表

Microsoftは2025年2月26日、同社が開発するSLM（小型言語モデル⁠）⁠ Phiファミリーの新モデルとなるPhi-4-multimodalとPhi-4-miniを発表した。

Empowering innovation: The next generation of the Phi family | Microsoft Azure Blog

Introducing Phi-4-multimodal and Phi-4-mini! Phi-4-multimodal integrates speech, vision, and text processing, while Phi-4-mini excels in text-based tasks. Discover these models on Azure AI Foundry: https://t.co/TCQR96dRW0
— Microsoft Azure (@Azure) February 26, 2025

Phi-4-multimodal ―複数のモード入力を同時に理解⁠・推論できるモデル

Phi-4-multimodalは56億パラメータをもつ同社初のマルチモーダル言語モデル。音声、視覚、テキスト処理を1つのアーキテクチャにシームレスに統合しており、複数の入力モードを同時に理解して推論できる。テキスト情報の処理、音声での言語の解釈、画像の分析のすべてでデバイス上での実行を最適化し、計算オーバヘッドを削減しながら効率的で低遅延の推論を実現している。

また、音声に関するタスクに優れており、自動音声認識（ASR）と音声翻訳（ST）で、専用モデルであるWhisperV3やSeamlessM4T-v2-Largeなどを上回る性能をもつという。さらに、音声要約ではGPT-4oに匹敵するパフォーマンスを達成したとのこと。一方、モデルサイズが小さいため、音声による質問応答（QA）タスクではGemini-2.0-FlashやGPT-4o-realtime-previewなどとまだ差があり、現在この機能を改善するための作業が行われている。

Phi-4-mini ―テキストベースで高パフォーマンスを発揮するコンパクトモデル

Phi-4-miniは38億パラメータの、スピードと効率性を重視した高密度のデコーダーをもつコンパクトモデル。推論、数学、コーディング、命令の追跡、関数呼び出しなどのテキストベースのタスクでより大きなモデルよりも優れたパフォーマンスを発揮するという。

ユーザーがリクエストを行うとPhi-4-Miniはクエリを推論し、関連する関数を識別して呼び出して出力を受信、その結果を応答に組み込むことができる。これにより、拡張可能なエージェントベースのシステムを構築でき、外部ツールやAPI、外部データソースに接続してモデルを強化することもできる。

Phi-4-multimodalとPhi-4-miniは現在Azure AI Foundry、HuggingFace、およびNVIDIA API Catalogで試すことができる。