GPT-5.5をChatGPT Plusで使っていたら、2日ほどで使用量を使い切ってしまいました。
GPT-5.5が公開されてから、まだ5日ほどです。
新しいモデルなので、最初はうれしくてMediumを多めに使っていました。
実際、明らかに賢い。
ブログの構成も、コードの相談も、前より最後まで粘ってくれる。
開発もかなり進みました。
これは本当に助かった。
でも、2日で使い切った。
そこで一気に現実に戻りました。
だから、今週の使い方を変えます。
GPT-5.5 Lowで始める。
必要なところだけMediumへ上げる。
この記事を書いているのは2026年4月28日です。OpenAIは2026年4月23日にGPT-5.5を公開しました。まだ公開から5日ほどです。
2日で使い切ったので、Low起点に変える
今回の変更点はシンプルです。
全部をMediumにしない。
まずLowで始める。
失敗したのは、GPT-5.5 Mediumを「良いから全部これでいい」と思ったことでした。
たしかに良い。
雑なメモを渡しても、記事の形まで持っていく。
調査も整理も、途中で投げ出しにくい。
でも、Plusで毎日の作業に使うには重い。
僕が困ったのは、性能ではありません。
使い方です。
ブログは毎日触る。
Codexも使う。
思いついたら、すぐ相談する。
その全部をMediumに乗せると、気持ちよく進むぶん、使用量の減りも速い。
ここで必要なのは、我慢ではなく運用の組み直しでした。
5.4より何が違うのか
GPT-5.4とGPT-5.5の違いは、単に「少し賢くなった」ではありません。
僕の感覚では、差が出るのは短い質問よりも、長い作業です。
1回で答える作業。
これは5.4でもかなり強い。
でも、調べる、直す、確認する、もう一度直す。
こういう作業になると、5.5のほうが途中で粘る感じがあります。
公式の数字で見ると、特に差が出ているのはこのあたりです。
| 見る場所 | GPT-5.4 | GPT-5.5 | 読み方 |
|---|---|---|---|
| Terminal-Bench 2.0 | 75.1% | 82.7% | ターミナル作業で差が大きい |
| Expert-SWE | 68.5% | 73.1% | 長めのコード作業で伸びている |
| OSWorld-Verified | 75.0% | 78.7% | 画面操作系でも少し上 |
| MRCR v2 512K-1M | 36.6% | 74.0% | 長い文脈で差が大きい |
| Tau2-bench Telecom | 92.8% | 98.0% | 複数ステップの対応で伸びている |
ここで大事なのは、文章のうまさだけではありません。
5.5は、長い文脈を持ったまま、作業を続けるところが強い。
だからCodexやブログの構成作りで違いを感じやすい。
GPT-5.5 Lowは弱いのか
ここがいちばん気になりました。
Lowと聞くと、弱そうに見える。
Mediumより下。
だから「大事な作業には使えないのでは」と思ってしまう。
でも、今の僕の判断は少し違います。
GPT-5.5 Lowは、GPT-5.5の弱い版というより、使う推論量を絞った設定です。
土台は5.5です。
OpenAI公式は「GPT-5.5 LowがGPT-5.4のどの設定に相当する」とは明示していません。
だから、ここは断定しません。
外部評価のArtificial Analysisには、GPT-5.5 LowとGPT-5.4を比較するページがあります。
少なくとも、比較対象になるくらいには見られている。
でも、公式の対応表ではないので、自分の作業で試す前提です。
ただ、5.5自体が5.4より伸びているので、Lowでも日常作業にはかなり期待できます。
少なくとも、ブログ構成、音声メモ整理、タイトル案、軽いコード相談なら、まずLowから試す価値があります。
僕の使い分けはこうです。
| 作業 | 5.5 Lowでよさそう | Medium以上に上げたい |
|---|---|---|
| ブログ構成 | 最初の整理 | 検索意図と競合まで深く見るとき |
| 音声メモ整理 | ほぼLowで始める | 長い資料化までやるとき |
| Codex作業 | 小さい修正、調査、方針相談 | 複数ファイル修正、テスト、長い実装 |
| 重要な調査 | 下調べ | 公開前の判断、数値確認 |
つまり、Lowは「弱いから使う」のではありません。
最初に使う。
足りないときだけ上げる。
そういう入口にする。
使いすぎた原因は、モデル選びを毎回していなかったこと
ここで一度、考えを変えました。
強いモデルを使うことが正解ではない。
強いモデルをどこに使うかを決めることが大事です。
長い調査。
コード修正。
ファイル操作。
ブラウザ確認。
複数ステップの作業。
このあたりはMedium以上でいい。
でも、タイトル案、見出し案、音声メモの整理、記事の方向づけまでMediumでやる必要はない。
OpenAIも、GPT-5.5はGPT-5.4より価格が高い一方で、Codexでは少ないトークンで良い結果を出すよう調整していると説明しています。
それでも、Plusで使っている僕にとっては、数字より先に「減っている感覚」が来ます。
良い。
でも、全部に使うと持たない。
つまり、使いすぎた原因はGPT-5.5ではありません。
僕が、作業ごとのモデル選びをさぼっていたことです。
トークン消費は「安くなった」ではなく「少なく済む場面がある」
ここは誤解しやすいところです。
GPT-5.5は、GPT-5.4よりAPI単価が高いです。
OpenAIの案内では、GPT-5.5は入力が100万トークンあたり5ドル、出力が30ドル。
GPT-5.4は入力が2.50ドル、出力が15ドルです。
つまり、単価だけ見ると2倍です。
| 項目 | GPT-5.4 | GPT-5.5 | 差 |
|---|---|---|---|
| 入力トークン | $2.50 / 100万 | $5.00 / 100万 | 2倍 |
| 出力トークン | $15.00 / 100万 | $30.00 / 100万 | 2倍 |
| Codexでの傾向 | 基準 | より少ないトークンで良い結果を出す方向 | 作業次第 |
ここでややこしいのは、単価は2倍でも、同じ作業に必要なトークンが減る場合があることです。
たとえば、GPT-5.4で100使っていた作業が、GPT-5.5で60で終わるなら、単価が2倍でも実質は120です。
2倍ではなく、約1.2倍です。
ただし、これは「必ずそうなる」という話ではありません。
OpenAIは、CodexではGPT-5.5がGPT-5.4より少ないトークンで良い結果を出すよう調整していると説明しています。
でも、ChatGPT Plusで僕たちが感じるのはAPIの請求額ではありません。
使える量が減っていく感覚です。
だから今回の判断はこうです。
5.5は、作業によっては少ないトークンで終わる。
でも、Medium以上で何でも投げると、Plusでは使い切りやすい。
ここを分けて考えたほうがいい。
CodexのデフォルトをLowにできないか
ここも今週の課題です。
Codexをそのまま使うと、僕の環境ではGPT-5.5 Mediumが中心になります。
毎回Lowに切り替えるのは面倒です。
できれば、最初からGPT-5.5 Lowで始めたい。
Codex CLIなら、設定で推論量のデフォルトを変えられます。
OpenAIのCodex設定リファレンスには、model_reasoning_effort があり、low、medium、high、xhigh などを選べると書かれています。
たとえば、CLIの設定ならこういう方向です。
model = "gpt-5.5"
model_reasoning_effort = "low"
Plan modeを使う場合は、別に plan_mode_reasoning_effort もあります。
ここが未設定だと、Plan mode側の既定値が使われます。
ただし、Codexアプリ側のUIでどこまで同じように固定できるかは、環境によって確認が必要です。
少なくともCLIでは、Low起点にする道があります。
僕が今やりたいのは、これです。
毎回Mediumから始めない。
まずLowで始める。
重い作業だけMediumへ上げる。
今週はLowで始めて、必要なところだけ上げる
今週の運用はこう分けます。
| 作業 | 使うモデル |
|---|---|
| ブログのラフ構成 | GPT-5.5 Low |
| 音声メモの整理 | GPT-5.5 Low |
| タイトル案・見出し案 | GPT-5.5 Low |
| SEOの方向性チェック | GPT-5.5 Low or Medium |
| 重要な調査記事 | GPT-5.5 Medium |
| Codexで重い実装 | GPT-5.5 Medium以上 |
| 軽い雑談・確認 | 軽いモデルでもOK |
最初から全部をMediumでやらない。
まずLowで形を作る。
足りなければMediumに上げる。
最後の検証や重い判断だけ、強い設定を使う。
この順番なら、ブログ作業を止めずに回せそうです。
Plusで使うなら、強さより配分を決める
GPT-5.5はたしかに強いです。
OpenAI公式の評価でも、GPT-5.4に対してTerminal-Bench 2.0、Expert-SWE、OSWorld-Verified、Tau2-bench Telecomなどで上回っています。
でも、Plusユーザーとして毎日使うなら、Medium以上の常用は少し重い。
僕自身、Mediumで使っていたら2日ほどでかなり使ってしまいました。
その時点で「このままだと、書く前に上限を気にする人になる」と思いました。
だから今週は、GPT-5.5 Lowを中心にします。
ブログを書く。構成を作る。Codexの相談をする。音声メモを整理する。
まずはLowで十分か試す。
本当に必要なときだけMediumに上げる。
これからは「どのAIが一番強いか」だけでは足りません。
どの作業に、どの強さのAIを使うか。
そこまで設計する必要があります。
少なくとも今週の僕は、GPT-5.5 Lowから始めます。
それで足りないところだけMediumへ上げます。
強いAIを使うほど、使いどころを決める。
今回の結論は、それです。