OpenAIは米国時間の5月13日に発表された「GPT-4o」(ジーピーティーフォーオー)。
応答精度向上はもちろんのこと、応答速度の向上など様々な発表がなされました。情報が多すぎて結局どのようなことが起きたのか。どのような使い方ができるのか。簡潔に内容を追いたい方向けにまとめてみました。詳細に関しては公式サイトやデモンストレーション動画をご確認ください。
コンテンツ
今回発表された内容について
発表された内容で代表的なものを箇条書きにして抜粋しました。
https://openai.com/index/hello-gpt-4o/
1.API料金が半額。
価格が50%安くなりました。GPT-4oはGPT-4 Turboより50%安く、入力トークンあたり5ドル(100万トークン)および出力トークンあたり15ドル(100万トークン)です。
これはAnthropic社のClaude3 sonnetにもほぼ匹敵する料金です。(入力:3ドル、出力15ドル)
2.応答速度が2倍速くなりました。
レイテンシが2倍速くなりました。つまり、GPT-4oはGPT-4 Turboの2倍の速度です。
3.トークンの最適化が行われました。
日本語では1.4倍効率が良くなったことで、API利用時の料金も回答速度も安くなります。
4.レート制限が5倍に増加しました。
GPT-4oは、1分間に送信できるメッセージの上限が5倍に増加しました。その結果、従来のモデルよりも多くの対話が可能となり、ユーザーがより効率的に作業できるようになります。
なお、今後数週間で、GPT-4oはGPT-4 Turboの5倍のレート制限に達し、高使用量の開発者に対して1分あたり最大1000万トークンの処理が可能です。
5.会話モードがリアルタイム、さらにビデオモードが可能になりました(数週間以内に実装予定)
1文1答形式ではなくなりシームレスな会話が可能になります。
またビデオモードにより視覚的な情報をもとに会話が可能です。
回答速度平均では 320 ミリ秒で、人間の応答時間とほぼ同じです。
音声認識と発話部分も同じニューラルネットワークで処理することで、その結果シームレスな会話を実現しているとのことです。その結果、リアルタイム翻訳による会話が可能になります。
※なお、この機能は記載の通り、数週間以内に実装予定です。15日発表時点では利用は確認できません。
おそらく使えないといった声が多かったからかサムアルトマン氏も16日にXにてポストしています。
日本語訳:
また、明確にするためにお伝えしますが、新しい音声モードはまだリリースされていません。(ただし、GPT-4oのテキストモードはリリースされています)。
現在、アプリで使用できるのは旧バージョンの音声モードです。
新しいバージョンは待つ価値が十分にあります!
6.会話の返答音声の速度を指示することが可能です。(数週間以内に実装予定)
会話中に指示を出すことでしゃべる速度を変えることが可能です。
7.感情が豊になりました。(数週間以内に実装予定)
声の抑揚、笑いなどの表現を取り入れました。
8.知識のカットオフ日がかわりました。
知識のカットオフ日は2023年10月です。
9.精度向上
特にビジョンと音声タスクで精度向上をしました。
10.無料で使える範囲が増えました。
具体的にはGPT4oもGPTs、メモリ機能も無料で利用できます。
11.PCアプリの提供開始
まずはmacのユーザーだけですが、PCにアプリが搭載されるため、会話をしながら、その内容を提供しながらの作業が可能です。そのため、あたかもコードをレビューしてもらいながら会話ができたり、資料を見てもらいながら会話したりなどができます。なお、windowsは今年中には対応予定とのことです。
https://www.youtube.com/watch?v=Cws2rWaRsLw
9:20ごろより。
まとめ
細かい点を挙げればきりがないのですが、主な改善点はこのような形です。
特に5番の会話や11番のワークフローが楽しみです。
11番に関してはコードレビューをしてもらうことはもちろん、一緒に会議に参加してもらうといった使い方もできるかもしれません。