Microsoftは2025年2月26日、同社が開発するSLM
Introducing Phi-4-multimodal and Phi-4-mini! Phi-4-multimodal integrates speech, vision, and text processing, while Phi-4-mini excels in text-based tasks. Discover these models on Azure AI Foundry: https://
— Microsoft Azure (@Azure) February 26, 2025t. co/ TCQR96dRW0
Phi-4-multimodal ―複数のモード入力を同時に理解・推論できるモデル
Phi-4-multimodalは56億パラメータをもつ同社初のマルチモーダル言語モデル。音声、視覚、テキスト処理を1つのアーキテクチャにシームレスに統合しており、複数の入力モードを同時に理解して推論できる。テキスト情報の処理、音声での言語の解釈、画像の分析のすべてでデバイス上での実行を最適化し、計算オーバヘッドを削減しながら効率的で低遅延の推論を実現している。
また、音声に関するタスクに優れており、自動音声認識
Phi-4-mini ―テキストベースで高パフォーマンスを発揮するコンパクトモデル
Phi-4-miniは38億パラメータの、スピードと効率性を重視した高密度のデコーダーをもつコンパクトモデル。推論、数学、コーディング、命令の追跡、関数呼び出しなどのテキストベースのタスクでより大きなモデルよりも優れたパフォーマンスを発揮するという。
ユーザーがリクエストを行うとPhi-4-Miniはクエリを推論し、関連する関数を識別して呼び出して出力を受信、その結果を応答に組み込むことができる。これにより、拡張可能なエージェントベースのシステムを構築でき、外部ツールやAPI、外部データソースに接続してモデルを強化することもできる。
Phi-4-multimodalとPhi-4-miniは現在Azure AI Foundry、HuggingFace、およびNVIDIA API Catalogで試すことができる。