rinna
GPT
rinnaは2023年5月17日に、日本語に特化した36億パラメータを持つ汎用言語モデルと対話言語モデルの2種類のGPT言語モデルをオープンソースで公開した。このとき公開した言語モデルはChatGPTの学習パートの一部にあたる対話形式でユーザーの指示を遂行できるようなfine-tuningのみで、人間の評価を利用した強化学習を実現していなかった。今回公開したのは、ChatGPTに用いられている学習手法でもある、人間の評価を利用した強化学習を施した対話型GPT言語モデル。
同社の調査で、強化学習済みと強化学習前の対話GPT言語モデルの性能を、人間による評価とChatGPTによる自動評価で比較したところ、以下のような結果になったという。
- 人間による評価
- 強化学習済みの返答が良い:47%、差がない:31%、悪い:22%
- ChatGPTによる自動評価
- 強化学習済みの返答が良い:63%、差がない:3%、悪い:34%
強化学習済み対話GPT言語モデルは商用利用可能なMIT Licenseのもと、Hugging Faceで公開されている。