Meta、AIモデルLlama 3.2をリリース ―画像認識「ビジョンモデル」、統合ツールチェーン「Llama Stack」が利用可能に

Metaは2024年9月25日、年次イベント「Meta Connect 2024」にて、同社が開発するオープンソースのAIモデルLlamaの最新バージョンLlama 3.2のリリースを発表した。

Llama 3.2: Revolutionizing edge AI and vision with open, customizable models

📣 Introducing Llama 3.2: Lightweight models for edge devices, vision models and more!

What’s new?
• Llama 3.2 1B & 3B models deliver state-of-the-art capabilities for their class for several on-device use cases — with support for @Arm, @MediaTek & @Qualcomm on day one.
•… pic.twitter.com/lx4N2qGSCe
— AI at Meta (@AIatMeta) September 25, 2024

Llama 3.2には、小規模（11B⁠）⁠、中規模（90B）のテキストおよび画像認識可能なビジョンLLMと、エッジ/モバイル向けの軽量でテキストのみのモデル (1B、3B）が含まれており、それぞれ事前トレーニング済み、および命令調整済みバージョンが用意されている。

ビジョンモデル

Llama 3.2 11Bと90BはLlama初の「ビジョンモデル」で、チャートやグラフを含むドキュメントの理解、画像のキャプション、自然言語の説明に基づいて画像内のオブジェクトの方向を特定する視覚的グラウンディングタスクなど、画像推論をサポートしている。

軽量モデル

軽量の1Bおよび 3Bモデルは、多言語テキスト生成とツール呼び出しに優れている。クローズな状態で動作するため、開発者はデータがデバイスから出ることなく、強力なプライバシーを備え、パーソナライズされたオンデバイスアプリケーションを構築できる。処理がローカルで行われるため、プロンプトに瞬時に応答するような速度が得られる。アプリケーションはどのクエリをデバイス上に残し、どのクエリをクラウド内のより大きなモデルで処理するかを明確に制御できるようになる。これらのモデルはQualcomm およびMediaTekハードウェアで利用可能で、ARMプロセッサ用に最適化されている。

Llama Stack

Llama Stack APIは、Llamaモデルをカスタマイズしてエージェントアプリケーションを構築するためのツールチェーンコンポーネントを標準化するインターフェース。このAPIをより使いやすくするため、推論、ツールの使用、およびRAG用APIのリファレンス実装を構築した。さらにパートナーと協力し、複数のAPIをパッケージ化して開発者に単一のエンドポイントを提供する方法として、Llama Stackディストリビューションを作り上げた。

Llama Stackディストリビューションは現在、オンプレミス、クラウド、単一ノード、デバイス上の複数の環境でLlamaモデルを操作できるようになっている。オンデバイスディストリビューションはPyTorchのエッジデバイス向けインターフェースExecuTorch経由で、シングルノードディストリビューションはOllama経由で提供される。

Llama 3.2モデルは、llama.comとHugging Faceからダウンロードできるほか、AMD、AWS、Databricks、Dell、Google Cloud、Groq、IBM、Intel、Microsoft Azure、NVIDIA、Oracle Cloud、Snowflakeなど25社を超える企業とともに、サービスを実現している。またLlama Stackもコミュニティで利用できるようになっている。