OpenAIは、最新の生成モデルGPT-4 Turbo with VisionをAPIで一般提供しはじめた。そしてChatGPTにも展開しはじめたことに言及した[1]。モデルgpt-4-turboには現在gpt-4-turbo-2024-04-09が使われている。
GPT-4 Turboは画像を理解できるマルチモーダルであり、そのことを指してGPT-4 Turbo with Visionと名付けられている。コンテキストウィンドウで128Kトークン(テキスト300ページに相当)を利用でき、トレーニングデータは2023年12月までのものが使われている。また、VisionリクエストにはJSONモードやFunction callingが利用できる。
なお、GPT-4 Turboの価格は入力が$10/1Mトークン、出力が$30/1Mトークンであり、GPT-4と比較すると入力が3倍、出力が2倍安く利用できるようになっている。
今回の一般提供にあたって、いくつかの応用事例を示している。