Google⁠Gemmaの新たなオープンモデルをリリース ―エンコーダ⁠デコーダモデルT5Gemmaと医療分野特化のマルチモーダルモデルMedGemma+MedSigLip

T5Gemma ―新たなアプローチのエンコーダ⁠デコーダモデル

T5GemmaはGemma 2をエンコーダ・デコーダモデルに適応させたモデル。

従来のGemmaはデコーダのみを装備したモデルで、エンコーダ・デコーダモデルに比べて計算効率に優れているが、実行結果の品質は劣るとされている。T5Gemmaは適応(adaptation)と呼ばれる手法を用いて事前学習済みのデコーダのみのモデルをエンコーダ・デコーダーアキテクチャに変換することで、元のGemma 2と同等かそれ以上のパフォーマンスを達成。複数のベンチマークで推論能力や品質の向上が見られたという。

またT5GemmaにはGemma 2 2Bおよび9Bモデルに加え、新たに学習済みのT5サイズモデル(Small、Base、Large、XL)が用意され、モデルサイズの異なるエンコーダとデコーダを組み合わせることができるようになった。たとえば9Bエンコーダと2Bデコーダを組み合わせることで、要約などの特定のタスクにおいて、さらに品質と効率のトレードオフを微調整することが可能となる。要約では生成される出力の複雑さよりも入力の深い理解が重要になるため、大規模なエンコーダと小規模なデコーダの組み合わせが有効にはたらくとのこと。

T5GemmaはHugging FaceKaggleでから入手できるほか、Vertex AIでモデルを使った推論を実行することもできる。

MedGemma+MedSigLip ―医療分野に特化したSigLip搭載のマルチモーダルモデル

医療AI開発に特化されたモデルMedGemmaに新たなマルチモーダルモデルMedGemma 27B Multimodalと画像エンコーダMedSigLIPが追加された。

MedGemma 27B Multimodalは、以前リリースされた4B Multimodalと27Bテキストのみのモデルを補完し、複雑なマルチモーダルおよび縦断的に電子健康記録の解釈をサポートする。MedSigLIPは、4Bおよび27B MedGemmaモデルと同じ画像エンコーダをベースに胸部X線、組織病理パッチ、皮膚科画像、眼底画像などの多様な医用画像データを用いてチューニングを行い、視覚埋め込みモデルと比較して同等またはそれ以上の分類性能を実現しながら、医用画像分野全体においてはるかに高い汎用性をもつという。

MedGemma 4BとMedSigLIPは単一のGPUで実行可能で、モバイルハードウェア上でも実行できる。またどちらもApache 2.0のもとGitHub上でオープンソースとして公開されており、詳しい利用法と入手法についてはGitHub上のドキュメントを参照。

おすすめ記事

記事・ニュース一覧