GPT-5.5をPlusで2日で使い切った。今週はGPT-5.5 Lowでいく

GPT-5.5をChatGPT Plusで使っていたら、2日ほどで使用量を使い切ってしまいました。

GPT-5.5が公開されてから、まだ5日ほどです。
新しいモデルなので、最初はうれしくてMediumを多めに使っていました。
実際、明らかに賢い。
ブログの構成も、コードの相談も、前より最後まで粘ってくれる。

開発もかなり進みました。
これは本当に助かった。

でも、2日で使い切った。

そこで一気に現実に戻りました。

だから、今週の使い方を変えます。
GPT-5.5 Lowで始める。
必要なところだけMediumへ上げる。

この記事を書いているのは2026年4月28日です。OpenAIは2026年4月23日にGPT-5.5を公開しました。まだ公開から5日ほどです。

2日で使い切ったので、Low起点に変える

今回の変更点はシンプルです。

全部をMediumにしない。
まずLowで始める。

失敗したのは、GPT-5.5 Mediumを「良いから全部これでいい」と思ったことでした。

たしかに良い。
雑なメモを渡しても、記事の形まで持っていく。
調査も整理も、途中で投げ出しにくい。

でも、Plusで毎日の作業に使うには重い。

僕が困ったのは、性能ではありません。
使い方です。

ブログは毎日触る。
Codexも使う。
思いついたら、すぐ相談する。

その全部をMediumに乗せると、気持ちよく進むぶん、使用量の減りも速い。

ここで必要なのは、我慢ではなく運用の組み直しでした。

5.4より何が違うのか

GPT-5.4とGPT-5.5の違いは、単に「少し賢くなった」ではありません。

僕の感覚では、差が出るのは短い質問よりも、長い作業です。

1回で答える作業。
これは5.4でもかなり強い。

でも、調べる、直す、確認する、もう一度直す。
こういう作業になると、5.5のほうが途中で粘る感じがあります。

公式の数字で見ると、特に差が出ているのはこのあたりです。

見る場所	GPT-5.4	GPT-5.5	読み方
Terminal-Bench 2.0	75.1%	82.7%	ターミナル作業で差が大きい
Expert-SWE	68.5%	73.1%	長めのコード作業で伸びている
OSWorld-Verified	75.0%	78.7%	画面操作系でも少し上
MRCR v2 512K-1M	36.6%	74.0%	長い文脈で差が大きい
Tau2-bench Telecom	92.8%	98.0%	複数ステップの対応で伸びている

ここで大事なのは、文章のうまさだけではありません。

5.5は、長い文脈を持ったまま、作業を続けるところが強い。
だからCodexやブログの構成作りで違いを感じやすい。

GPT-5.5 Lowは弱いのか

ここがいちばん気になりました。

Lowと聞くと、弱そうに見える。
Mediumより下。
だから「大事な作業には使えないのでは」と思ってしまう。

でも、今の僕の判断は少し違います。

GPT-5.5 Lowは、GPT-5.5の弱い版というより、使う推論量を絞った設定です。
土台は5.5です。

OpenAI公式は「GPT-5.5 LowがGPT-5.4のどの設定に相当する」とは明示していません。
だから、ここは断定しません。

外部評価のArtificial Analysisには、GPT-5.5 LowとGPT-5.4を比較するページがあります。
少なくとも、比較対象になるくらいには見られている。
でも、公式の対応表ではないので、自分の作業で試す前提です。

ただ、5.5自体が5.4より伸びているので、Lowでも日常作業にはかなり期待できます。
少なくとも、ブログ構成、音声メモ整理、タイトル案、軽いコード相談なら、まずLowから試す価値があります。

僕の使い分けはこうです。

作業	5.5 Lowでよさそう	Medium以上に上げたい
ブログ構成	最初の整理	検索意図と競合まで深く見るとき
音声メモ整理	ほぼLowで始める	長い資料化までやるとき
Codex作業	小さい修正、調査、方針相談	複数ファイル修正、テスト、長い実装
重要な調査	下調べ	公開前の判断、数値確認

つまり、Lowは「弱いから使う」のではありません。

最初に使う。
足りないときだけ上げる。

そういう入口にする。

Lowかminiかで迷うなら役割で分ける

ここは上位の公式情報との差になりやすいところです。

OpenAIの現行モデル案内では、複雑な推論やコーディングは GPT-5.5、コストと速さを優先するなら GPT-5.4 mini という整理になっています。
つまり、5.5をLowで使う のと 小さい別モデルを使う のは、似ているようで別です。

GPT-5.5 Low: 5.5系の強さを残しつつ推論量を絞る
GPT-5.4 mini: もっと軽さと単価を優先する
Medium以上: 長い調査や重い実装に寄せる

僕がこの記事で言いたいのは、まずLowで始める です。
でも、もっと軽さ優先に振るなら mini 系を見る手もあります。
5.5をどこまで残したいか で決めるとズレにくいです。

使いすぎた原因は、モデル選びを毎回していなかったこと

ここで一度、考えを変えました。

強いモデルを使うことが正解ではない。
強いモデルをどこに使うかを決めることが大事です。

長い調査。
コード修正。
ファイル操作。
ブラウザ確認。
複数ステップの作業。

このあたりはMedium以上でいい。

でも、タイトル案、見出し案、音声メモの整理、記事の方向づけまでMediumでやる必要はない。

OpenAIも、GPT-5.5はGPT-5.4より価格が高い一方で、Codexでは少ないトークンで良い結果を出すよう調整していると説明しています。

それでも、Plusで使っている僕にとっては、数字より先に「減っている感覚」が来ます。

良い。
でも、全部に使うと持たない。

つまり、使いすぎた原因はGPT-5.5ではありません。
僕が、作業ごとのモデル選びをさぼっていたことです。

トークン消費は「安くなった」ではなく「少なく済む場面がある」

ここは誤解しやすいところです。

GPT-5.5は、GPT-5.4よりAPI単価が高いです。
OpenAIの案内では、GPT-5.5は入力が100万トークンあたり5ドル、出力が30ドル。
GPT-5.4は入力が2.50ドル、出力が15ドルです。

つまり、単価だけ見ると2倍です。

項目	GPT-5.4	GPT-5.5	差
入力トークン	$2.50 / 100万	$5.00 / 100万	2倍
出力トークン	$15.00 / 100万	$30.00 / 100万	2倍
Codexでの傾向	基準	より少ないトークンで良い結果を出す方向	作業次第

ここでややこしいのは、単価は2倍でも、同じ作業に必要なトークンが減る場合があることです。

たとえば、GPT-5.4で100使っていた作業が、GPT-5.5で60で終わるなら、単価が2倍でも実質は120です。
2倍ではなく、約1.2倍です。

ただし、これは「必ずそうなる」という話ではありません。

OpenAIは、CodexではGPT-5.5がGPT-5.4より少ないトークンで良い結果を出すよう調整していると説明しています。
でも、ChatGPT Plusで僕たちが感じるのはAPIの請求額ではありません。

使える量が減っていく感覚です。

だから今回の判断はこうです。

5.5は、作業によっては少ないトークンで終わる。
でも、Medium以上で何でも投げると、Plusでは使い切りやすい。

ここを分けて考えたほうがいい。

CodexのデフォルトをLowにできないか

ここも今週の課題です。

Codexをそのまま使うと、僕の環境ではGPT-5.5 Mediumが中心になります。
毎回Lowに切り替えるのは面倒です。

できれば、最初からGPT-5.5 Lowで始めたい。

Codex CLIなら、設定で推論量のデフォルトを変えられます。
OpenAIのCodex設定リファレンスには、model_reasoning_effort があり、low、medium、high、xhigh などを選べると書かれています。

たとえば、CLIの設定ならこういう方向です。

model = "gpt-5.5"
model_reasoning_effort = "low"

Plan modeを使う場合は、別に plan_mode_reasoning_effort もあります。
ここが未設定だと、Plan mode側の既定値が使われます。

ただし、Codexアプリ側のUIでどこまで同じように固定できるかは、環境によって確認が必要です。
少なくともCLIでは、Low起点にする道があります。

僕が今やりたいのは、これです。

毎回Mediumから始めない。
まずLowで始める。
重い作業だけMediumへ上げる。

今週はLowで始めて、必要なところだけ上げる

今週の運用はこう分けます。

作業	使うモデル
ブログのラフ構成	GPT-5.5 Low
音声メモの整理	GPT-5.5 Low
タイトル案・見出し案	GPT-5.5 Low
SEOの方向性チェック	GPT-5.5 Low or Medium
重要な調査記事	GPT-5.5 Medium
Codexで重い実装	GPT-5.5 Medium以上
軽い雑談・確認	軽いモデルでもOK