2023年12月19日、東京工業大学
📢 大規模言語モデル
— Naoaki Okazaki (@chokkanorg) December 19, 2023「Swallow」 をHugging Face上で公開しました。東京工業大学情報理工学院の岡崎研究室と横田研究室、産業技術総合研究所の研究チームでLlama 2 7B, 13B, 70Bの日本語能力を引き上げました。13Bと70BのオープンなLLMの中で日本語の最高性能を達成しました。 https:// t. co/ GcVppvdovF
Swallowは、英語ベースで実績のある大規模言語モデルである米Meta社 Llama 2の日本語能力を拡張することで構築されている。拡張前の大規模言語モデルの高い言語処理能力を維持しながら日本語能力を強化するため、言語モデルに日本語の文字や単語などの語彙を追加したうえで、新たに開発した日本語データを用いてモデルの構築を継続的に行う継続事前学習を行った。
今回公開されたのは、パラメータ数が70億パラメータ