Part III: GPT-5.5 시대의 Codex 실전 가이드

Chapter 7: 모델 릴리스 타임라인 — Sonnet 4.6 → Opus 4.7 → GPT-5.5

집필일: 2026-04-28 최종수정일: 2026-06-11

7.1 67일

2026-02-17에서 2026-04-23까지 67일이다. 그 안에 세 번의 frontier 모델 출시가 있었다:

2026-02-17: Claude Sonnet 4.6 (Anthropic)
2026-04-16: Claude Opus 4.7 (Anthropic)
2026-04-23: GPT-5.5 (OpenAI)

Anthropic의 Sonnet → Opus 간격은 58일. OpenAI는 Opus 4.7 출시 7일 만에 GPT-5.5로 응수했다.

이 시퀀스에서 두 가지 결론이 나온다:

모델이 더 이상 차이의 본체가 아니다. Sonnet 4.6이 Opus 4.5 대비 59:41로 선호될 때부터, 사용자가 보는 차이의 대부분은 모델이 아니라 하네스에서 온다.
Claude vs Codex는 모델 비교가 아니라 인터페이스 비교다. 이 챕터가 기록하는 67일은 그 선택을 강제한 기간이다.

7.2 Claude Sonnet 4.6 — Before / After (2026-02-17)

Before: 2026-02 직전은 Opus 4.5 + Sonnet 4.5의 양강 구도. Claude Code는 CLAUDE.md / subagents / hooks / skills / plugins의 5종 조립 패턴이 자리잡은 상태. Codex 측은 GPT-5.4 + AGENTS.md 표준으로 운영 중이었고, AGENTS.md가 Linux Foundation 산하로 이관되며 60,000+ 오픈소스 채택.

After: 모델 자체보다 사용자 선호 비율이 헤드라인이었다. Claude Code 내부에서 Sonnet 4.6 vs Opus 4.5 선호는 59:41 — Sonnet이 일부 Opus 워크로드를 "그대로" 가져간 형태였다. SWE-bench Verified는 79.6% (10-trial 평균; prompt 변형 시 80.2%) ^[18]. 같은 가격($3/$15 per 1M)에 1M 컨텍스트(beta).

Claude Code 사용자 보고: "더 효과적으로 컨텍스트를 읽고 수정한다", "공통 로직 중복 대신 모음", "false success claim 감소."

1차 인용:

Anthropic, "Introducing Claude Sonnet 4.6," 2026-02-17 — "Claude Code users preferred Sonnet 4.6 to its predecessor by a wide margin" ^[18]
Axios, 2026-02-17 ^[4]
TechCrunch, 2026-02-17 ^[11]

핵심 시사점: Sonnet 모델이 Opus 워크로드의 일부를 가져갔다는 것은 사용자가 보는 차이의 80%가 모델 tier가 아니라 어떻게 쓰는가, 즉 하네스에 달려있다는 신호다.

Figure 7.2: Sonnet 4.6 vs Opus 4.5 사용자 선호 — Claude Code 사용자들이 같은 가격에서 Sonnet을 59:41로 선호. tier 교차의 증거. illustration by author Gemini assisted

7.3 Claude Opus 4.7 — Before / After (2026-04-16)

Before: Sonnet 4.6이 default가 된 상태에서 Opus 4.6도 여전히 강했다. "Opus 4.6 + Claude Code"가 정통 frontier coder 조합. Anthropic은 Harnessing Claude's Intelligence를 발표하며 "범용 도구(bash + 텍스트 에디터)에 자기 오케스트레이션 + compaction + 메모리 폴더"를 권장하는 패턴을 공개. AAR(자율 정렬 연구 — 9-instance 5일 실험)이 2026-04-14에 발표된 직후였다.

After: Opus 4.7의 핵심 변화:

CursorBench 70% (Opus 4.6의 58%에서) ^[18]
xhigh effort + task budgets: 모델에게 시간/예산을 신호로 전달하는 외부 인터페이스 추가
temperature 등 sampling 파라미터 폐지: "프롬프트로 행동을 유도하라"
이미지 해상도 2576px로 상향, 128k output token
Cursor / GitHub Copilot / AWS Bedrock / Vertex AI 동시 GA ^[8] ^[7]

Beat 1 — Anthropic이 자기 자신과 경쟁하다. Opus 4.7 출시 당일, CNBC는 Anthropic이 내부적으로 미출시 모델 "Mythos"가 Opus 4.7보다 뛰어나다는 것을 인정했다고 보도했다 ^[6]. Mythos가 이미 앞서 있다는 것을 알면서도 Opus 4.7을 출시한 것은 정확한 신호다: 릴리스 cadence가 이제 "모델이 준비됐을 때"가 아니라 경쟁 압력에 의해 결정된다. Anthropic은 자기 자신의 로드맵과 경쟁하면서 frontier 툴링을 개발자 손에 계속 쥐어주고 있었다. 같은 시기 Claude의 "dumbed down" 보고를 받아 fixed했다는 사과도 함께 했다 — instruction following 강화, fewer subagents by default, fewer emoji.

Claude Code에서는 /ultrareview, default effort xhigh가 새로 들어왔다. 하네스가 모델의 "효과 권한"을 직접 다루는 단계로 넘어간 것이다.

모호성 세금 (Ambiguity Tax): 4월 16일 ~ 22일

"fewer subagents by default" 변경은 의도된 개선이었지만, 사용자 베이스에 균열을 냈다. Opus 4.6은 모호한 프롬프트를 "구제"했다 — 지시가 명확하지 않아도 그럴듯한 결과를 내놓았다. Opus 4.7의 instruction-following 강화는 모호한 프롬프트를 구제하는 대신 그 모호함을 다시 사용자에게 돌려보냈다 ^[12].

Opus 4.6의 관대한 해석에 맞춰진 워크플로우를 가진 개발자들에게는 일주일 안에 프롬프트를 다시 써야 하는 상황이 됐다. 커뮤니티는 이것을 "모호성 세금(ambiguity tax)"이라고 이름 붙였다: 이전에는 쓸 필요가 없었던 명시적 지시를 추가하는 비용 ^[13].

반응은 극명히 갈렸다: 이미 명확한 AGENTS.md와 explicit 태스크 서술을 가진 개발자들은 성능 향상을 봤다. 프롬프트가 곧 메모리였던 개발자들은 regression을 봤다 ^[14]. X와 Reddit 쓰레드에 두 반응이 동시에 올라왔다 ^[15].

이 7일 — 4월 16일부터 22일 — 이 다음에 벌어진 일의 가장 중요한 맥락이다. Opus 4.7 불만을 품고 있던 개발자들은 4월 23일 GPT-5.5가 등장했을 때 중립적인 관객이 아니었다. 이미 이동할 준비가 된 집단이었다.

Beat 1b — 출시는 깔끔하게 착지하지 않았다. 반응은 단순한 인터넷 소음이 아니었다. X의 반발 포스트는 14,000 좋아요, Reddit 쓰레드는 2,300 업보트를 기록했다 ^[13] — 아카이브에 발자국을 남길 만큼 큰 숫자다. 상당수의 Claude Code 활성 사용자가 출시 48시간 안에 공개적 불만을 표명했다. 4월 16일에 프롬프트 라이브러리가 망가지고, 22일까지 고치지 못한 개발자가 바로 4월 23일에 GPT-5.5 발표를 클릭한 사람이다. (8장은 그 사람의 시점에서 시작한다.)

1차 인용:

Anthropic, "Introducing Claude Opus 4.7," 2026-04-16 ^[18]
CNBC, "Anthropic rolls out Opus 4.7, less risky than Mythos," 2026-04-16 ^[6]
GitHub Copilot Changelog, 2026-04-16 ^[7]
keepmyprompts, "Claude Opus 4.7 Prompting Guide: What Changed," 2026. ^[12]
MerchMind, "Claude Opus 4.7 Backlash Explained," 2026. ^[13]
Xlork, "Claude Opus 4.7: What's New and Why Developers Are Frustrated," 2026. ^[14]
BotMonster, "Claude Opus 4.7: What X and Reddit Users Are Saying," 2026. ^[15]

7.4 GPT-5.5 — Before / After (2026-04-23)

Before: GPT-5.4가 ChatGPT default였고, 코딩 특화는 GPT-5.2-Codex로 분기. Codex CLI는 AGENTS.md + ~/.codex/config.toml + skills + subagents(TOML)로 빠르게 표준화 중. Anthropic이 1주 전에 Opus 4.7을 풀었고, 7일간의 모호성 세금 담론이 Claude Code 사용자 베이스의 상당수를 불만 상태로 만든 상황이었다. GPT-5.5는 중립적인 시장에 착지한 것이 아니었다 — 이미 재고 준비가 된 커뮤니티에 착지했다 ^[16].

Beat 2 — Codex가 1차 배달 채널이 되다. GPT-5.5의 가장 중요한 특징은 벤치마크 점수가 아니었다:

API는 같은 날 닫혀 있었다 — Codex 구독을 통해서만 접근 가능 ^[10]. Simon Willison이 Codex plugin을 통해 우회 호출을 했을 때, 그것은 단순한 편법이 아니었다. frontier 모델이 API보다 하네스 제품 안에 먼저 들어온 순간 — 하네스가 모델을 감싸는 레이어가 아니라 제품 자체가 된 것을 확인하는 순간이었다.
컨텍스트 1,050,000 / 출력 128k / cutoff 2025-12-01
effort 5단계 (none/low/medium/high/xhigh)
가격: $5/$30 per 1M (GPT-5.4의 정확히 2배 — 모델 자신감의 명시적 신호)
NVIDIA GB200 NVL72 인프라: 35x 낮은 토큰 비용, 50x 높은 throughput per MW ^[9]

Simon Willison의 xhigh 실험: pelican-on-bicycle 코딩 태스크에서 xhigh로 9322 reasoning tokens, none으로 39 tokens ^[10]. 약 240배 차이다 (9,322 / 39 ≈ 239).

Figure 7.3: GPT-5.5의 effort 5단계와 reasoning token 사용량 — 같은 모델, 같은 태스크에서 effort 한 줄로 약 240배 범위. illustration by author Gemini assisted

NVIDIA 내부: "디버깅 사이클이 며칠에서 시간 단위로, 실험이 몇 주에서 하룻밤으로 ^[9]."

1차 인용:

OpenAI, "Introducing GPT-5.5," 2026-04-23 ^[19]
OpenAI Codex Changelog, 2026-04-23
Willison, Simon, 2026-04-23 ^[10]
NVIDIA Blog, 2026-04-23 ^[9]
TechCrunch, 2026-04-23 ^[11]

Figure 7.1: 67일 동안 세 frontier 출시 — Sonnet 4.6, 58일 후 Opus 4.7, 그리고 7일 후 GPT-5.5의 Codex 선출시. illustration by author Gemini assisted

7.5 67일이 남긴 두 결론

이 시퀀스를 정리하면:

결론 1: 모델 tier는 더 이상 주요 차별화 변수가 아니다.

Sonnet 4.6이 일부 Opus 워크로드를 가져가던 2월의 데이터, Opus 4.7의 instruction-following 강화가 tone 변화로 나타나던 4월의 데이터, 그리고 GPT-5.5가 Codex 안에 탑재되어야 비로소 접근 가능했던 4월 23일의 데이터가 모두 같은 방향을 가리킨다: 같은 모델을 쓰더라도 하네스가 결과의 대부분을 결정한다.

결론 2: Claude vs Codex는 인터페이스 비교다.

67일 동안 양쪽 도구 모두 모델이 업그레이드됐다. 하지만 더 중요한 변화는 인터페이스의 차별화였다 — AGENTS.md 표준 + ~/.codex/config.toml + TOML skills vs CLAUDE.md hierarchy + auto-memory + agent teams. 4월 말의 두 frontier 출시는 이 인터페이스 선택을 지금 결정해야 하는 상황으로 만들었다.

7.6 2026년 6월 업데이트 — 두 번째 파동은 모델보다 표면이었다

5월 5일 이후의 업데이트는 이 장의 결론을 뒤집지 않고, 더 정교하게 만든다. 새 축은 두 개다.

첫째, Anthropic 쪽은 Opus 4.8과 Fable 5/Mythos 5로 올라갔다. 공식 모델 문서는 2026년 6월 현재 Opus 4.8을 복잡한 reasoning, long-horizon agentic coding, high-autonomy work의 Opus-tier 기본 선택지로 제시하고, Fable 5를 가장 강한 일반 공개 모델로 둔다 ^[18]. Claude Code changelog도 Fable 5 접근, nested sub-agent, safe mode, background agent 수정처럼 하네스 표면을 빠르게 확장했다 ^[18].

둘째, OpenAI 쪽은 "GPT-5.5 이후 새 모델"보다 Codex product surface를 넓혔다. 5월 이후 공식 changelog의 핵심은 Chrome extension, remote/mobile access, Worktree/branch 선택, goal mode GA, Sites preview, Windows Computer Use, Bedrock provider, Migrate to Codex onboarding이었다 ^[19]. 즉 GPT-5.5는 모델 이벤트였고, 5~6월은 운영 표면 이벤트였다.

그래서 67일의 결론은 이렇게 갱신된다. 4월에는 "frontier 모델이 어느 하네스에 먼저 실리는가"가 중요했다. 6월에는 "그 하네스가 어떤 권한 경계, worktree, browser/desktop access, migration/import log, long-running goal state를 남기는가"가 더 중요하다. Claude도 하네스를 제품 안으로 흡수하고 있고, Codex도 단순 CLI를 넘어 app/mobile/browser/cloud 표면이 되었다. 이제 비교의 단위는 모델명이 아니라 감사 가능한 작업 표면이다.

참고문헌

Anthropic, "Introducing Claude Sonnet 4.6," 2026-02-17. [Anthropic, 2026]
Anthropic, "Introducing Claude Opus 4.7," 2026-04-16. [Anthropic, 2026]
OpenAI, "Introducing GPT-5.5," 2026-04-23. [OpenAI, 2026]
Axios, "Anthropic Claude Sonnet 4.6," 2026-02-17. [Axios, 2026]
TechCrunch, "Anthropic releases Sonnet 4.6," 2026-02-17. [TechCrunch, 2026]
CNBC, "Anthropic Opus 4.7, less risky than Mythos," 2026-04-16. [CNBC, 2026]
GitHub Copilot Changelog, 2026-04-16. [GitHub, 2026] Link
AWS Bedrock, "Claude Opus 4.7," 2026-04-16. [Amazon Web Services, 2026]
NVIDIA Blog, "OpenAI Codex GPT-5.5," 2026-04-23. [NVIDIA, 2026]
Willison, Simon, "GPT-5.5," simonwillison.net, 2026-04-23. [Willison, 2026]
TechCrunch, "OpenAI GPT-5.5," 2026-04-23. [TechCrunch, 2026]
keepmyprompts, "Claude Opus 4.7 Prompting Guide: What Changed," 2026. [KeepMyPrompts, 2026]
MerchMind, "Claude Opus 4.7 Backlash Explained," 2026. [AI, 2026]
Xlork, "Claude Opus 4.7: What's New and Why Developers Are Frustrated," 2026. [Blog, 2026]
BotMonster, "Claude Opus 4.7: What X and Reddit Are Saying," 2026. [Botmonster Tech, 2026]
Danushka, "OpenAI Just Released GPT-5.5 — This Is the Move Claude Did Not Want to See," 2026. [Danushka, 2026]
Anthropic, "Models overview," 2026. [Anthropic, 2026]
Anthropic, "Claude Code changelog," 2026. [Anthropic, 2026]
OpenAI, "Codex changelog," 2026. [OpenAI, 2026]