Google、最高レベルのパフォーマンス性能をもつマルチモーダルAIモデル「Gemini」を発表

Googleは2023年12月7日、マルチモーダルで使用できる高度な推論性能を備えたAIモデル「Gemini」を発表した。

Introducing Gemini: our largest and most capable AI model -blog.google

We believe in making AI helpful for everyone. That’s why we’re launching Gemini, our most capable model that’s inspired by the way people understand and interact with the world. #GeminiAI pic.twitter.com/gNG9ha9xMO
— Google (@Google) December 6, 2023

Geminiは、マルチモーダルに最適化されるようゼロから構築されたAIモデル。テキスト、コード、オーディオ、画像、ビデオなどのさまざまな種類の情報をシームレスに解釈、操作し、組み合わせることができる。GeminiはUltra、Pro、Nanoの3サイズで提供されるため、データセンターからモバイルデバイスまでさまざまな環境で動作可能。

また、同社で行ったパフォーマンステストの結果、Geminiの中でも最高性能をもつGemini Ultraは、大規模言語モデル (LLM) の研究開発で広く使用されている32の学術ベンチマークのうち30のテストでGPT-4を上回ったという。さらに数学、物理学、歴史、法律、医学、倫理などの57科目の組み合わせてテストするMMLU（massive multitask language understanding）で人間の専門家を上回るパフォーマンスを示したとのこと。

このほか、Geminiはマルチモーダルのコンポーネントを個別にトレーニングしてつなぎ合わせるといった作業を経ることなく事前トレーニングされ、さまざまな種類の入力をゼロからシームレスに理解し、推論できるようになっているとのこと。

Gemini NanoはPixelにも採用

GeminiはGoogleのさまざまな製品とプラットフォームに展開されている。たとえば、同社の生成Ai機能BardはGemini Proのカスタムバージョンの採用によって、より高度な推論、計画、理解が可能となった。これは170以上の国と地域で英語で利用できるようになっており、近い将来、さまざまなモードや新しい言語、場所をサポートする予定。

GeminiでBardがさらに便利に -Google Japan Blog

また、同社のスマートフォンPixelににもGeminiが採用される。Pixel 8 Proは、Gemini Nanoを実行するように設計された最初のスマートフォンで、Gemini Nanoを使ってレコーダーアプリの要約やGboardでのスマートリプライなどの新機能が強化され、今後WhatsAppをはじめGeminiを利用できるメッセージングアプリがさらに登場する予定。

Gemini Ultraは近日提供予定

Gemini Ultraについては、現在、信頼できる外部関係者によるチーム等により広範な信頼性と安全性のチェックを完了し、一般利用を可能にする前に、人間からのフィードバックによる微調整と、強化学習（RLHF）を使用した改良を加えているところだという。さらに2024年初頭に一部の顧客、開発者、パートナー、安全性と信頼性の専門家がGemini Ultraを利用し実験とフィードバックを行う。

また2024年初めには、Gemini Ultraをはじめとするモデルと機能へのアクセスを可能にする「Bard Advanced」もリリースする予定となっている。