OpenAI、応答前により時間をかけて思考する推論モデル「OpenAI o1」を発表～数学や科学、コーディングなどの複雑な推論で専門家に匹敵するパフォーマンスを達成

OpenAIは9月12日、難しい問題を解決するための新しい推論モデル「OpenAI o1」シリーズのo1-previewとo1-miniを発表した。このシリーズは、応答する前により時間をかけて考えるように設計したことで、特に数学や科学、コーディングなどの分野で以前のモデルよりも難しい問題を解決する能力を持つ。

小型モデルであるo1-miniはo1-previewよりも80%安く、推論が必要だが広範な知識は必要ないアプリケーション向けに利用できる、コスト効率の高いモデルとなっている。

We're releasing a preview of OpenAI o1—a new series of AI models designed to spend more time thinking before they respond.

These models can reason through complex tasks and solve harder problems than previous models in science, coding, and math. https://t.co/peKzzKX1bu
— OpenAI (@OpenAI) September 12, 2024

応答前に思考の連鎖をおこなう推論モデル

OpenAI o1は、難しい質問に答える前に長時間考える人間のように、問題を解決する際に「思考の連鎖」をおこなう。これにより、モデルは複雑な問題を段階的に解決する能力を向上させた。例えば、難しいステップを簡単なステップに分解し、現在のアプローチがうまくいかない場合には別のアプローチを試みるという。

結果、OpenAI o1は数学試験や競技プログラミングコンテストでも高い成績を収め、専門家に匹敵するパフォーマンスを達成していることを示した。ただしこのことは、専門家が解決することが期待される問題に対して、いくつかの点でのみ優れているにすぎないことに注意もしている。

安全性も向上

OpenAI o1に導入された強化学習アルゴリズムにおいて応答時の「思考の連鎖」が統合されたことで、モデルの行動に関するポリシーを効果的に教えることもできたという。これにより、応答の安全性と整合性も向上した。

なお、この具体的な思考の連鎖はユーザーには公開されない。OpenAIはこの決定に欠点があるのを認めているが、モデルが思考を改変されずに表現する自由が必要で、思考の連鎖にポリシーの遵守やユーザーの好みを訓練できないこと、また整合性の取れていない思考の連鎖をユーザーに直接見せることを避けたいことなどを理由に挙げてこの決定を説明している。ただし、有用なアイデアを応答時に示せるようにするため、OpenAI o1では思考の連鎖の要約を示すことにしたことも取り上げている。

また現在のOpenAI o1は、数学やデータ分析、コーディングなどの推論が重視される分野でGPT-4oよりも高く評価されているが、テキスト生成などの一部の分野ではまだ低い評価に留まっていることには注意が必要である。

利用方法

ChatGPT PlusおよびTeamユーザーはChatGPTでOpenAI o1のモデルを利用できる。手動でo1-previewとo1-miniを選択でき、現在週ごとのメッセージ制限はそれぞれ30と50となっている。APIでの利用は現在、一部のAPI利用者にのみ開放していている。