Llama 2をベースに日本語性能を強化した大規模言語モデル「Swallow」が公開、商用利用も可能

2023年12月19日、東京工業大学（東工大⁠）⁠ 岡崎直観教授と横田理央教授らの研究チームと産業技術総合研究所（産総研）は、日本語能力に優れた大規模言語モデル（LLM）「⁠Swallow」を公開した。Swallowは現在公開されている日本語に対応した大規模言語モデルとしては最大規模であり、オープンでLLAMA 2 Community Licenseに従う限り商用利用が可能。

📢 大規模言語モデル「Swallow」をHugging Face上で公開しました。東京工業大学情報理工学院の岡崎研究室と横田研究室、産業技術総合研究所の研究チームでLlama 2 7B, 13B, 70Bの日本語能力を引き上げました。13Bと70BのオープンなLLMの中で日本語の最高性能を達成しました。 https://t.co/GcVppvdovF
— Naoaki Okazaki (@chokkanorg) December 19, 2023

Swallowは、英語ベースで実績のある大規模言語モデルである米Meta社 Llama 2の日本語能力を拡張することで構築されている。拡張前の大規模言語モデルの高い言語処理能力を維持しながら日本語能力を強化するため、言語モデルに日本語の文字や単語などの語彙を追加したうえで、新たに開発した日本語データを用いてモデルの構築を継続的に行う継続事前学習を行った。

今回公開されたのは、パラメータ数が70億パラメータ（7B⁠）⁠、130億パラメータ（13B⁠）⁠、700億パラメータ（70B）の3モデルで、それぞれ継続事前学習モデル（base）と、指示チューニングを施した言語モデル（instruct）の計6種類がHugging Faceからダウンロード可能となっている。