NII⁠約12兆トークンのコーパスで学習した「LLM-jp-4 8Bモデル」「LLM-jp-4 32B-A3Bモデル」オープンソースライセンスで公開

国立情報学研究所(NII)の大規模言語モデル研究開発センター(LLMC)は2026年4月3日、約86億パラメータの「LLM-jp-4 8Bモデル」と約320億パラメータのMoEモデル「LLM-jp-4 32B-A3Bモデル」をオープンソースライセンスで公開した。

今回発表された「LLM-jp-4 8BモデルはLlama 2 アーキテクチャ、⁠LLM-jp-4 32B-A3Bモデル」はQwen3 MoE アーキテクチャといういずれもオープンなLLMを用いている。事前学習の際にオープンソースAIの定義(OSAID)に配慮し、第三者も入手可能な良質な学習コーパスの収集・選別・構築を行い、インターネット上の公開データや政府・国会の文書、合成データなどからなる約12兆トークンの学習コーパスを整備・使用した。また、英語および日本語のインストラクションチューニングデータ22種類を用いてチューニングを行っている。

これにより同モデルは最大で約6万5千トークンの入出力まで処理が可能で、言語モデルの日本語理解能力を測る「日本語MT-Bench」や英語理解能力を測る「MT-Bench」において、OpenAIのGPT-4oやAlibabaのQwen3-8Bを上回る性能をマークしたという。

LLMCではより大規模なパラメータを備えたモデルの開発を進めており、2026年度中に順次公開予定とのこと。

「LLM-jp-4 8Bモデル」⁠LLM-jp-4 32B-A3Bモデル」Hugging Faceで公開されている

おすすめ記事

記事・ニュース一覧