GPT-5.5をPlusで2日で使い切った。今週はGPT-5.5 Lowでいく

GPT-5.5をPlusで2日で使い切った。今週はGPT-5.5 Lowでいく

GPT-5.5をChatGPT Plusで使っていたら、2日ほどで使用量を使い切ってしまいました。

GPT-5.5が公開されてから、まだ5日ほどです。
新しいモデルなので、最初はうれしくてMediumを多めに使っていました。
実際、明らかに賢い。
ブログの構成も、コードの相談も、前より最後まで粘ってくれる。

開発もかなり進みました。
これは本当に助かった。

でも、2日で使い切った。

そこで一気に現実に戻りました。

だから、今週の使い方を変えます。
GPT-5.5 Lowで始める。
必要なところだけMediumへ上げる。

この記事を書いているのは2026年4月28日です。OpenAIは2026年4月23日にGPT-5.5を公開しました。まだ公開から5日ほどです。

2日で使い切ったので、Low起点に変える

今回の変更点はシンプルです。

全部をMediumにしない。
まずLowで始める。

失敗したのは、GPT-5.5 Mediumを「良いから全部これでいい」と思ったことでした。

たしかに良い。
雑なメモを渡しても、記事の形まで持っていく。
調査も整理も、途中で投げ出しにくい。

でも、Plusで毎日の作業に使うには重い。

僕が困ったのは、性能ではありません。
使い方です。

ブログは毎日触る。
Codexも使う。
思いついたら、すぐ相談する。

その全部をMediumに乗せると、気持ちよく進むぶん、使用量の減りも速い。

ここで必要なのは、我慢ではなく運用の組み直しでした。

5.4より何が違うのか

GPT-5.4とGPT-5.5の違いは、単に「少し賢くなった」ではありません。

僕の感覚では、差が出るのは短い質問よりも、長い作業です。

1回で答える作業。
これは5.4でもかなり強い。

でも、調べる、直す、確認する、もう一度直す。
こういう作業になると、5.5のほうが途中で粘る感じがあります。

公式の数字で見ると、特に差が出ているのはこのあたりです。

見る場所 GPT-5.4 GPT-5.5 読み方
Terminal-Bench 2.0 75.1% 82.7% ターミナル作業で差が大きい
Expert-SWE 68.5% 73.1% 長めのコード作業で伸びている
OSWorld-Verified 75.0% 78.7% 画面操作系でも少し上
MRCR v2 512K-1M 36.6% 74.0% 長い文脈で差が大きい
Tau2-bench Telecom 92.8% 98.0% 複数ステップの対応で伸びている

ここで大事なのは、文章のうまさだけではありません。

5.5は、長い文脈を持ったまま、作業を続けるところが強い。
だからCodexやブログの構成作りで違いを感じやすい。

GPT-5.5 Lowは弱いのか

ここがいちばん気になりました。

Lowと聞くと、弱そうに見える。
Mediumより下。
だから「大事な作業には使えないのでは」と思ってしまう。

でも、今の僕の判断は少し違います。

GPT-5.5 Lowは、GPT-5.5の弱い版というより、使う推論量を絞った設定です。
土台は5.5です。

OpenAI公式は「GPT-5.5 LowがGPT-5.4のどの設定に相当する」とは明示していません。
だから、ここは断定しません。

外部評価のArtificial Analysisには、GPT-5.5 LowとGPT-5.4を比較するページがあります。
少なくとも、比較対象になるくらいには見られている。
でも、公式の対応表ではないので、自分の作業で試す前提です。

ただ、5.5自体が5.4より伸びているので、Lowでも日常作業にはかなり期待できます。
少なくとも、ブログ構成、音声メモ整理、タイトル案、軽いコード相談なら、まずLowから試す価値があります。

僕の使い分けはこうです。

作業 5.5 Lowでよさそう Medium以上に上げたい
ブログ構成 最初の整理 検索意図と競合まで深く見るとき
音声メモ整理 ほぼLowで始める 長い資料化までやるとき
Codex作業 小さい修正、調査、方針相談 複数ファイル修正、テスト、長い実装
重要な調査 下調べ 公開前の判断、数値確認

つまり、Lowは「弱いから使う」のではありません。

最初に使う。
足りないときだけ上げる。

そういう入口にする。

使いすぎた原因は、モデル選びを毎回していなかったこと

ここで一度、考えを変えました。

強いモデルを使うことが正解ではない。
強いモデルをどこに使うかを決めることが大事です。

長い調査。
コード修正。
ファイル操作。
ブラウザ確認。
複数ステップの作業。

このあたりはMedium以上でいい。

でも、タイトル案、見出し案、音声メモの整理、記事の方向づけまでMediumでやる必要はない。

OpenAIも、GPT-5.5はGPT-5.4より価格が高い一方で、Codexでは少ないトークンで良い結果を出すよう調整していると説明しています。

それでも、Plusで使っている僕にとっては、数字より先に「減っている感覚」が来ます。

良い。
でも、全部に使うと持たない。

つまり、使いすぎた原因はGPT-5.5ではありません。
僕が、作業ごとのモデル選びをさぼっていたことです。

トークン消費は「安くなった」ではなく「少なく済む場面がある」

ここは誤解しやすいところです。

GPT-5.5は、GPT-5.4よりAPI単価が高いです。
OpenAIの案内では、GPT-5.5は入力が100万トークンあたり5ドル、出力が30ドル。
GPT-5.4は入力が2.50ドル、出力が15ドルです。

つまり、単価だけ見ると2倍です。

項目 GPT-5.4 GPT-5.5
入力トークン $2.50 / 100万 $5.00 / 100万 2倍
出力トークン $15.00 / 100万 $30.00 / 100万 2倍
Codexでの傾向 基準 より少ないトークンで良い結果を出す方向 作業次第

ここでややこしいのは、単価は2倍でも、同じ作業に必要なトークンが減る場合があることです。

たとえば、GPT-5.4で100使っていた作業が、GPT-5.5で60で終わるなら、単価が2倍でも実質は120です。
2倍ではなく、約1.2倍です。

ただし、これは「必ずそうなる」という話ではありません。

OpenAIは、CodexではGPT-5.5がGPT-5.4より少ないトークンで良い結果を出すよう調整していると説明しています。
でも、ChatGPT Plusで僕たちが感じるのはAPIの請求額ではありません。

使える量が減っていく感覚です。

だから今回の判断はこうです。

5.5は、作業によっては少ないトークンで終わる。
でも、Medium以上で何でも投げると、Plusでは使い切りやすい。

ここを分けて考えたほうがいい。

CodexのデフォルトをLowにできないか

ここも今週の課題です。

Codexをそのまま使うと、僕の環境ではGPT-5.5 Mediumが中心になります。
毎回Lowに切り替えるのは面倒です。

できれば、最初からGPT-5.5 Lowで始めたい。

Codex CLIなら、設定で推論量のデフォルトを変えられます。
OpenAIのCodex設定リファレンスには、model_reasoning_effort があり、lowmediumhighxhigh などを選べると書かれています。

たとえば、CLIの設定ならこういう方向です。

model = "gpt-5.5"
model_reasoning_effort = "low"

Plan modeを使う場合は、別に plan_mode_reasoning_effort もあります。
ここが未設定だと、Plan mode側の既定値が使われます。

ただし、Codexアプリ側のUIでどこまで同じように固定できるかは、環境によって確認が必要です。
少なくともCLIでは、Low起点にする道があります。

僕が今やりたいのは、これです。

毎回Mediumから始めない。
まずLowで始める。
重い作業だけMediumへ上げる。

今週はLowで始めて、必要なところだけ上げる

今週の運用はこう分けます。

作業 使うモデル
ブログのラフ構成 GPT-5.5 Low
音声メモの整理 GPT-5.5 Low
タイトル案・見出し案 GPT-5.5 Low
SEOの方向性チェック GPT-5.5 Low or Medium
重要な調査記事 GPT-5.5 Medium
Codexで重い実装 GPT-5.5 Medium以上
軽い雑談・確認 軽いモデルでもOK

最初から全部をMediumでやらない。

まずLowで形を作る。
足りなければMediumに上げる。
最後の検証や重い判断だけ、強い設定を使う。

この順番なら、ブログ作業を止めずに回せそうです。

Plusで使うなら、強さより配分を決める

GPT-5.5はたしかに強いです。

OpenAI公式の評価でも、GPT-5.4に対してTerminal-Bench 2.0、Expert-SWE、OSWorld-Verified、Tau2-bench Telecomなどで上回っています。

でも、Plusユーザーとして毎日使うなら、Medium以上の常用は少し重い。

僕自身、Mediumで使っていたら2日ほどでかなり使ってしまいました。
その時点で「このままだと、書く前に上限を気にする人になる」と思いました。

だから今週は、GPT-5.5 Lowを中心にします。

ブログを書く。構成を作る。Codexの相談をする。音声メモを整理する。

まずはLowで十分か試す。

本当に必要なときだけMediumに上げる。

これからは「どのAIが一番強いか」だけでは足りません。

どの作業に、どの強さのAIを使うか。

そこまで設計する必要があります。

少なくとも今週の僕は、GPT-5.5 Lowから始めます。
それで足りないところだけMediumへ上げます。

強いAIを使うほど、使いどころを決める。

今回の結論は、それです。

参照元

attrip

attrip

考えたことを、記事・AI・音楽に変えて発信しています。

盆栽、音楽、ブログ運営、日々の試行錯誤について書いています。

2010年から発信中

コメントを残す