OpenAIが新モデルo3、o4-miniを発表。使い分けを考える。

2025年4月16日（米国時間）にOpenAIは「o3（オースリー）」と「o4-mini（オーフォーミニ）」を公開しました。o4-mini（オーフォーミニ）にはo4-mini-high（オーフォーミニハイ）が存在し、モデル自体は同じですが、推論部分をよりじっくり行うことによって制度が上がったモデルです。その分返答は遅くなります。

さらに先日にはGPT4.1のAPI提供が数日前に発表されており、新モデルまでのリリース間隔が短くなってきています。実際どのようなモデルなのかを解説していきます。

コンテンツ

モデルごとの特徴
o3はIQ130越え？
ナンバリングがややこしい
コーディングに関するモデル
Windsurf、Cursorでは期間限定的にo4-miniを無料公開
モデルごとのユースケース
- ①日常的な調べ物やチャットで使いたい場合
- ②コーディングケース
先週のWeekly News
まとめ

モデルごとの特徴

o3の特徴として、OpenAIは新モデルのことを、特に、画像、チャート、グラフィックスの分析などの視覚タスクで優れたパフォーマンスを発揮しますと記載しています。

It’s ideal for complex queries requiring multi-faceted analysis and whose answers may not be immediately obvious. It performs especially strongly at visual tasks like analyzing images, charts, and graphics. In evaluations by external experts, o3 makes 20 percent fewer major errors than OpenAI o1 on difficult, real-world tasks—especially excelling in areas like programming, business/consulting, and creative ideation.

https://openai.com/index/introducing-o3-and-o4-mini

o4-miniに関してはo3と比較しても引けを取らず優秀な部分もあるけどminiにした分コスト効率が良くなったかわりに質は多少落ちているけど、とはいっても精度は十分高いよ。といった感じです。

なのでコストを気にしなければo3が優秀なところも多いよ。という感じです。
実際に利用制限やAPI料金に関してもo3の方がコストは高い状況です。

Plusプラン（22ドルのプラン）の場合
o3 週に50回
o4-miniは1日150回
o4-mini-highは1日50回

Proプランでは、ほぼ無制限のアクセスが可能とのことです。ただしアカウントの又貸しなどは規約違反ですからそこは注意が必要です。

ですので現状として一番優秀なモデルは？といわれるとo3の可能性が高く、次点o4-mini-highといった感じです。

o3はIQ130越え？

https://www.trackingai.org/home
よく最近、このモデルはIQいくつだ！といった表を見ることが増えましたが、これは上記サイトです。このShow Mensa Norway の結果です。

IQ値の測定自体が絶対でないので、画像認識能力が上がるとIQが上がりやすくなる気がしますし、IQが高い＝優秀という断定ができるわけでもないのですが、とはいっても会話の質、内容については精度向上を感じます。会話をしていても確かにこの順番に違和感を感じないので通りなのである程度は参考になるのかなと。

ナンバリングがややこしい

とりあえずナンバリングがややこしいです。これはネット上でも噂になっています。ナンバリングこそ生成AIに相談しなかったのかという意見も。笑

これはo3発表とともにo4-miniを発表した影響もあると思いますし、o1の次のo2は商標問題でナンバリングとして飛ばしている点なども大きいのかと。
基本的には数字の通りに優秀になるがo4というminiじゃないモデルがいまはない以上は、o3が現行ではフラグシップモデルに相当するという感じです。

コーディングに関するモデル

今までコーディングだとAnthropic のClaude sonnet シリーズ１強で、現行だと3.7 Sonnetの推論モデルthinkingが群を抜いています。Gemini2.5Proに関しても精度自体は上がっていてロングコンテキストによる記憶力の力を評価されている場合もありますが、ワンショットの１ファイルを操作するのは優秀なのですが、システムは規模が大きくなるほど依存関係が伴う以上、そういった全体的把握となるとまだSonnetのほうが優秀と感じ部分も多くあります。

今回、o4-mini-highに関してはレスポンスは3.7 Sonnetに負けますが、精度に関してはそこまで劣らないと感じています。実際に例のIQ値でも同じぐらいに位置するためそこともずれはないのでそこは相関する可能性もあるのかなとも思っています。

コストについてもAPI費用は3.7 Sonnetの3分の1まではいかないぐらいなのでそこも非常に使いやすいです。でもレスポンスは遅い印象です。

Anthropic: https://www.anthropic.com/pricing#api
OpenAI: https://platform.openai.com/docs/pricing

そうなると対話的な話しをしたときに優秀なモデルと、コーディングについて優秀なモデルは一概に一貫しない可能性が出てきています。実際コーディングに特化したモデルをGoogleが出すとの発表もあります。
ここは各社コーディング用モデルと分けてくる可能性も今後考えられます。

Windsurf、Cursorでは期間限定的にo4-miniを無料公開

モデル選びでは、性能や使い勝手だけでなく、コストも気になるところです。
コスト的にはClaude 3.7に比べると安いためWindsurf、Cursorに関しても期間限定ではありますが、各社クレジットなしで利用できるようにしています。o3は・・・ちょっと高すぎるので普段使いするにはちょっと難しさも感じます。

Windsurf

Cursor

Cursorモデル価格：https://docs.cursor.com/settings/models

モデルごとのユースケース

さて、これだけ各社から様々なAIモデルが登場すると、「結局どれを、どんな風に使ったらいいの？」と迷ってしまいます。もちろん正解は一つではありませんし、あくまで私の個人的な感覚です。参考までに利用シーンごとのおすすめです。

①日常的な調べ物やチャットで使いたい場合

この場合にはo3,o4-mini-highを使うのがいいかと思います。Gemini2.5Pro もほどよく使いやすいです。
特に、企業でGoogle Workspace（Standardプラン以上など）を導入している場合、追加費用なしでGeminiを利用できるケースも多いかと思います。日々の業務で使う分には、Geminiは十分すぎるほどの性能で、き

②コーディングケース

私が最もよくAIを使うのが、このコーディングの場面です。

コーディングだと今回のo4-mini-high悪くないなと感じました。ただ、個人的な印象としては、応答に少し時間がかかったり、やや慎重で細かく確認を求めてくる頻度が高かったりするように感じることもあります。

ただし、Gemini 2.5 Proは、時に「とりあえず動けば良い」といったコードを生成する傾向があるようにも感じます。冗長性や将来的な拡張性への配慮が少し足りないかな？と感じる場面も、正直ありました。もちろん、これは私たちの指示の出し方（プロンプト）にも大きく左右されるので、一概には言えません。

結局のところ、それぞれのモデルの得意・不得意を理解した上で、場面に応じてうまく使い分けるのが、現状ではベストなのかな、というのが私の考えです。私はo4-miniがWindsurfでfreeで使える以上はo4-miniを使い、Claudeもほどよく使うかなという感じです。

先週のWeekly News

動向は本当に目まぐるしいです。ほぼ毎日何かしらの新しい話題が登場しており、その全てを追うのは大変です。ここでは、最近特に話題になったり、個人的に興味深いと感じたりしたニュースをいくつか個人的にピックアップしてみました。

4/14 OpenAI「GPT‑4.1」API公開、100万トークン対応
4/15 OpenAIが“X似”短文SNSを開発中
4/17 OpenAI、AIコーディング企業Windsurf買収を30億ドルで交渉
4/17 Google、Gemini 2.5 Flashをリリース
4/19 人型ロボット21体が北京ハーフ参加、完走で技術検証

この中では、私自身がWindsurfのヘビーユーザーということもあり、OpenAIによる買収交渉のニュースが特に気になりました。今後の動向に注目していきたいです。

まとめ

医療分野をはじめ、多くの分野でAIモデルの精度は実用レベルに達し、技術的な焦点はアーキテクチャ設計、応答速度、ハードウェアといった次の段階に移りつつあります。

ソフトウェア開発に目を向けると、個人で使うツール、例えばブラウザ拡張機能などを作るハードルは下がってきています。しかし、そこからビジネスとして成功させるとなると話は別です。技術的な知識だけでなく、セキュリティ、運用、市場を見極めるマーケティング能力、そしてそれを実行する力が問われ、一朝一夕で実現できるものではありません。

「簡単に動く」だけでは利益を上げるのは難しく、もし誰もが容易に作れるレベルになれば、差別化は困難になります。利益は常に相対的なものであり、技術の進歩によって参入障壁が下がれば、かえって利益を得るためのハードルは上がるとも言えます。だからこそ、常に状況を俯瞰し、相対的な視点を持って物事を捉えていくことが、これからはより一層大切になっていくのではないでしょうか。

資料
ダウンロード

マスタデータのメンテナンスに関わる機能をまとめたSaaS「SMOOZ」
SMOOZはリレーショナルデータベースの課題を解決するサービスです。
オンラインデモで気軽に試すことが可能です。