OpenAIは米国時間の5月13日に生成AI新モデル「GPT-4o」(ジーピーティーフォーオー)を発表しました。4oのオーは「omni(オムニ)」のオーで、オムニとは「すべて」を表します。
「GPT-4o」の読み方は「ジーピーティーフォーオー」です。4oの特徴としてはさらに自然な音声会話が可能とのことです。
また、応答速度についても従来のGPT-4モデルよりも向上したと発表。感情的なトーンを表現するシーンも動画内で示されています。(3:12付近デモンストレーション)
なお、最高経営責任者(CEO)のサム・アルトマン氏は公式ブログにて
「Second, the new voice (and video) mode is the best computer interface I’ve ever used. It feels like AI from the movies; and it’s still a bit surprising to me that it’s real.」
日本語訳:
新しい音声(とビデオ)モードは私が今まで使った中での最高のコンピュータインタフェースです。まるで映画の中のAIみたいで、これが現実のものであることにまだ少し驚いています。
と表現しています。
公式ブログ:https://blog.samaltman.com/gpt-4o
GPT-4oの音声会話について
上記動画3:12付近よりデモンストレーションが行われています。特に今回印象的で今までと違う大きな点は会話のリアルタイム応答になった点です。さらには、会話と同時にビデオ入力が可能です。その上でその映像情報をもとに会話されるという機能です。
ただし、この機能に関しては発表後すぐに使えるものでなく数週間以内にアップデート予定とのことです。
いままでもGPTと会話機能はついていました。ただ、一回話をしてそれに返答というチャットの延長線上のような印象でした。
それがリアルタイムで途切れなく会話できることによって、人のように会話が可能です。
今までだと、途中で返答を始めてしまったりなどがありましたがその点が解消されるのかもしれません。
GPT-4oの料金について
なお、音声会話を楽しめるのは有料プランのみです。やはり音声会話という今回のメインの機能を使うためには有料プランが必要です。
ちなみに無料でも文章自体は楽しめます。ここはすごいところです。返答速度がいままでどころでなく早いです。
料金プランについて:https://openai.com/chatgpt/pricing/
GPT-4oのAPI料金について
また、API料金が半額になりました。GPT-4 Turboは入力10ドルの出力30ドルです。Anthropic社Claude3のOupsと比較してみます。
100万トークあたり | 入力 | 出力 |
---|---|---|
gpt-4o | 5ドル | 15ドル |
gpt-4o-2024-05-13 | 5ドル | 15ドル |
100万トークあたり | 入力 | 出力 |
---|---|---|
Opus | 15ドル | 75ドル |
Sonnet | 3ドル | 15ドル |
Haiku | 0.25ドル | 1.25ドル |
えっと…安すぎます。ほぼSonnet並みの料金で使えます。こうなってくると、かなり簡単な回答以外はGPTを使わない理由がなくなってきます。
API料金について:https://openai.com/api/pricing/
まとめ
発表のたびにすごいといった内容がでて驚きを与えてくれます。
たしかに、音声会話の個人利用としての使い方として豊かな表現力には未来を感じえます。そのため、英語学習や資格学習などの補助しては最良な機能を持ち得ると思います。
なお、個人的推測ですがおそらく直近でアバターや感情の表情表現などをするような機能が追加されてもおかしくないのかなと思いました。
そうなってくると会話による孤独感の心理的ケアに利用される使い方も出てくるのかもしれません。
ただ、直近の業務を効率化させるという点の、賢さにおいてはさらなる向上を期待したいところです。
そして今回、画像の読み込みという意味での向上が著しい印象は受けました。
今回APIの料金が半額になった点に関してはコスト面という意味で喜ばしい点です。
業務面という意味ではSora(動画生成)やVoice Engine(音声再現:15秒分の声データを元に本人の声を再現する)の方が現実的に提供されるようになればそちらの方が衝撃は大きそうです。