NII、約12兆トークンのコーパスで学習した「LLM-jp-4 8Bモデル」「LLM-jp-4 32B-A3Bモデル」をオープンソースライセンスで公開

国立情報学研究所（NII）の大規模言語モデル研究開発センター（LLMC）は2026年4月3日、約86億パラメータの「LLM-jp-4 8Bモデル」と約320億パラメータのMoEモデル「LLM-jp-4 32B-A3Bモデル」をオープンソースライセンスで公開した。

約12兆トークンの良質なコーパスで学習した新たな国産LLM「LLM-jp-4 8Bモデル」「⁠LLM-jp-4 32B-A3Bモデル」をオープンソースライセンスで公開～一部ベンチマークでGPT-4oやQwen3-8Bを上回る性能を達成～

✏️ニュースリリース
約12兆トークンの良質なコーパスで学習した新たな国産LLM「LLM-jp-4 8Bモデル」「⁠LLM-jp-4 32B-A3Bモデル」をオープンソースライセンスで公開
～一部ベンチマークでGPT-4oやQwen3-8Bを上回る性能を達成～https://t.co/7jyqQmfTmB

　大学共同利用機関法人情報・システム研究機構…
— 国立情報学研究所(NII) (@jouhouken) April 3, 2026

今回発表された「LLM-jp-4 8BモデルはLlama 2 アーキテクチャ、「⁠LLM-jp-4 32B-A3Bモデル」はQwen3 MoE アーキテクチャといういずれもオープンなLLMを用いている。事前学習の際にオープンソースAIの定義（OSAID）に配慮し、第三者も入手可能な良質な学習コーパスの収集・選別・構築を行い、インターネット上の公開データや政府・国会の文書、合成データなどからなる約12兆トークンの学習コーパスを整備・使用した。また、英語および日本語のインストラクションチューニングデータ22種類を用いてチューニングを行っている。

これにより同モデルは最大で約6万5千トークンの入出力まで処理が可能で、言語モデルの日本語理解能力を測る「日本語MT-Bench」や英語理解能力を測る「MT-Bench」において、OpenAIのGPT-4oやAlibabaのQwen3-8Bを上回る性能をマークしたという。

LLMCではより大規模なパラメータを備えたモデルの開発を進めており、2026年度中に順次公開予定とのこと。

「LLM-jp-4 8Bモデル」「⁠LLM-jp-4 32B-A3Bモデル」はHugging Faceで公開されている。