Sakana AIは2025年1月30日、高性能な大規模言語モデル(LLM)が持っている知識を小規模言語モデル(SLM:Small Language Model)に効率的に転移するための新技術「TAID(Temporally Adaptive Interpolated Distillation)」を開発し、これを用いて作成した日本語SLM「TinySwallow-1.5B」を公開した。
TAIDはSakana AIの開発した新しい知識蒸留手法。知識蒸留(Knowledge Distillation:KD)は、高性能なLLM(教師モデル)が自身の知識をSLM(生徒モデル)へ転移させる技術で、ゼロからSLMを学習するよりも、効率的かつ高性能なSLMを作ることができる。ただし、SLMにより良い学習をさせるには、より大きく高性能なLLMを教師モデルにすればい良いわけではない。教師モデルと生徒モデルの間の能力差が大きすぎると、知識転移が失敗することがあるという。いわば、“大学院レベルの専門知識をいきなり小学生に教えようとするようなイメージ”となる。
TAIDは、生徒モデルの学習進度に合わせて教師モデルを段階的に変えることで、効果的な知識転移を実現する。具体的には、学習段階の生徒モデルの能力に合わせた「中間教師(intermediate teacher)」を導入し学習を行う。学習が進むにつれて、中間教師は徐々により高度な知識を持つものに変化させる。実際の学校教育で教師が生徒の理解度に合わせて少しずつ難しい内容を教えていく方法に似た手法と言える。
TinySwallow-1.5Bは、TAIDによって作成された日本語のコンパクトな言語モデル。教師モデルとして320億パラメータのLLM、Qwen2.5-32B-Instruct、生徒モデルとしてQwen2.5-1.5B-Instructを使用している。また日本語の能力を強化するために、日本語のテキストデータでさらに事前トレーニングが行われている。TinySwallow-1.5Bは同社が行った日本語での言語モデルベンチマークにて、同規模のモデルの中で最高性能を達成したという。
TinySwallow-1.5Bは小規模のため、APIなどを介さずスマートフォンにダウンロードして使用可能で、Sakana AIのWebサイトやGitHubで試すことができる。またHugging Faceで公開されている。