@extends('layouts.app') @section('title', 'Claude Code 발전과정') @push('styles') @endpush @section('content')
Anthropic
2025년 2월 터미널에서 시작된 AI 코딩 에이전트의 혁신적 여정. 프로토타입에서 엔터프라이즈 개발 플랫폼으로 성장한 Claude Code의 이야기.
{{-- 핵심 수치 --}}Anthropic 내부 해커톤에서 출발. 터미널에서 Claude와 대화하며 코드를 작성하는 실험적 도구로 시작. "개발자의 터미널에 AI를 심는다"는 비전.
2025년 5월 22일, Claude 4 Sonnet/Opus와 동시 공개. VS Code/JetBrains IDE 통합, GitHub Actions 지원, SDK 공개. Max/Pro 구독 모델 도입.
Claude 4 Sonnet 출시. SWE-bench 72.7%로 당시 최고 성적. 코드 이해도와 정확성이 급격히 향상되며 Claude Code의 실전 능력이 도약.
Model Context Protocol(MCP)로 외부 도구 연동 표준화. Hooks, Custom Skills, Custom Agents 시스템으로 확장성 극대화. 커뮤니티 생태계 급성장.
Opus 4.1(8/5) — 에이전틱 태스크 특화 강화, SWE-bench 74.5%. Sonnet 4.5(9/29) — SWE-bench 77.2%로 "세계 최고의 코딩 모델" 등극. 서브에이전트, Plan Mode, Skills 시스템 도입.
SWE-bench 80.9%로 인류 최초 80% 벽 돌파. Sonnet 4.5 대비 76% 적은 토큰으로 동일 성능 달성. Infinite Chats로 컨텍스트 제한 해소. Claude Code $1B 런레이트 매출 달성.
Opus 4.6 (2/5) — GPQA 91.3%, Agent Teams, Adaptive Thinking 4단계. Sonnet 4.6 (2/17) — 1M 컨텍스트 베타, Opus 성능의 99%를 1/5 가격에. Cowork(비개발자 GUI), Claude Code Security, Auto Memory 출시.
프로젝트 루트의 CLAUDE.md 파일로 코딩 규칙, 아키텍처, 금지사항을 정의. AI가 프로젝트 문화를 학습하고 일관된 코드를 작성.
Model Context Protocol로 외부 도구(Slack, DB, API 등)를 표준화된 방식으로 연결. Claude Code가 단순 코딩 도구에서 통합 개발 허브로 진화한 핵심.
반복 작업을 SKILL.md로 패키징. 슬래시 명령어(/skill-name)로 호출. 커뮤니티가 만든 수백 개의 스킬을 즉시 활용 가능.
우리 팀 사용 예시:
• /pptx-skill — PPT 자동 생성
• /sam-docs-writer — 문서 규칙 자동 적용
• /webapp-testing — Playwright UI 테스트
복잡한 작업을 여러 서브에이전트에 위임하여 병렬 처리. Worktree를 활용한 독립 작업 공간에서 동시에 여러 기능을 개발.
실행 흐름:
메인 에이전트 → 분석 에이전트 (탐색)
→ 구현 에이전트 (코딩)
→ 테스트 에이전트 (검증)
메인 에이전트 ← 결과 통합 ← 커밋
대화가 끝나도 중요한 패턴과 교훈을 MEMORY.md에 자동 저장. 다음 세션에서 동일한 실수를 반복하지 않음. 프로젝트와 함께 성장하는 AI.
저장하는 것: 검증된 패턴, 아키텍처 결정, 사용자 선호
저장하지 않는 것: 임시 작업, 미검증 추측
도구 실행 전후에 자동으로 스크립트를 실행. Lint 자동 적용, 위험 명령 차단, 커밋 메시지 검증 등을 자동화. HTTP Hooks로 외부 서비스 연동도 가능.
각 모델의 핵심 역량, 벤치마크 성능, 적합한 사용 시나리오를 한눈에 비교합니다.
{{-- === Flagship 모델 === --}}Flagship
claude-opus-4-6 — Anthropic 최고 지능 + 최고 속도
Context
200K
1M beta
Max Output
128K
Price
$5/$25
in/out MTok
핵심 강점
적합한 작업
대규모 아키텍처 설계, 복잡한 리팩토링, 멀티파일 코드 생성, 심층 분석 및 추론이 필요한 작업. SAM 프로젝트의 메인 모델.
Flagship
인류 최초 SWE-bench 80% 돌파, Claude Code $1B 매출 달성
Context
200K
1M beta
Max Output
128K
Price
$5/$25
in/out MTok
핵심 강점
역사적 의의
SWE-bench에서 최초로 80%를 돌파한 모델. 같은 수준의 성능을 Sonnet 4.5 대비 76% 적은 출력 토큰으로 달성하는 효율성 혁신.
Balanced
claude-sonnet-4-6 — Opus급 코딩 성능을 1/3 가격에
Context
200K
1M beta
Max Output
64K
Price
$3/$15
in/out MTok
핵심 강점
적합한 작업
일상적 코딩, 빠른 반복 작업, 비용 최적화. SWE-bench에서 Opus 4.6과 1.2%p 차이로 대부분의 코딩 작업에서 Opus급 성능 발휘.
Balanced
"세계 최고의 코딩 모델"로 불린 당시 최고 성능 Sonnet
Context
200K
SWE-bench
77.2%
Price
$3/$15
역사적 의의
출시 당시 SWE-bench 최고 점수 기록. 30시간 이상 집중 작업이 가능한 안정성으로 "세계 최고의 코딩 모델"이라는 평가를 받음.
2025.08.05 | $15/$75
200K context | Opus 4의 에이전틱 태스크 특화 업그레이드. 다중 파일 리팩토링, 심층 연구, 도구 호출 안정성 강화.
2025.05.22 | $15/$75
200K context | High-compute에서 SWE-bench 79.4%, AIME 90.0%. Extended Thinking 중 도구 사용 최초 지원.
2025.05.22 | $3/$15
200K (1M beta) | Extended Thinking 본격 도입. 당시 Opus 4보다 SWE-bench에서 높은 점수를 기록한 가성비 모델.
2025.02 | $3/$15
200K context | Extended Thinking 최초 도입. 확장 모드에서 MATH 500 96.2% 달성. Claude Code의 기반이 된 모델.
2024.06 (Oct 업그레이드) | $3/$15
200K context | Claude Code 최초 탑재 모델. 당시 혁신적이었으나 현재 모델들과 비교하면 성능 차이가 뚜렷.
2025.10.15 | $1/$5
200K context | 64K output | Extended Thinking 지원
SWE-bench 73.3% — Sonnet 4.5 대비 5%p 이내이면서 1/3 비용. Claude Code 서브에이전트(Explore 등)에 최적화.
| 항목 | Opus 4.6 | Sonnet 4.6 | 차이 |
|---|---|---|---|
| SWE-bench | 80.8% | 79.6% | 1.2%p |
| GPQA Diamond | 91.3% | 74.1% | 17.2%p |
| ARC-AGI 2 | 68.8% | 58.3% | 10.5%p |
| OSWorld | 72.7% | 72.5% | 0.2%p |
| Max Output | 128K tokens | 64K tokens | 2x |
| 가격 (Input/Output) | $5 / $25 | $3 / $15 | 40~67% 절감 |
결론: 코딩(SWE-bench)과 컴퓨터 사용(OSWorld)에서는 거의 동등한 성능. 추론(GPQA)에서 Opus 4.6이 압도적 우위(17%p 차이). 비용 대비 코딩 성능만 보면 Sonnet 4.6이 최적, 심층 추론이 필요하면 Opus 4.6 선택.
Sonnet 3.5에서 Opus 4.6까지 — SWE-bench 49%에서 80.8%로, 1년 반 만에 65% 성능 향상.
{{-- 세대별 비교 테이블 --}}| 모델 | 출시일 | SWE-bench | GPQA | Context | Output | 가격 (In/Out) | 핵심 혁신 |
|---|---|---|---|---|---|---|---|
| Sonnet 3.5 | 2024.06 | 49.0% | 59.4% | 200K | 8K | $3 / $15 | Claude Code 최초 모델 |
| Sonnet 3.5 v2 | 2024.10 | 62.3% | - | 200K | 8K | $3 / $15 | Computer Use 도입 |
| Sonnet 3.7 | 2025.02 | 70.3% | 84.8% | 200K | 64K | $3 / $15 | Extended Thinking 최초 도입 |
| Sonnet 4 | 2025.05 | 72.7% | - | 200K | 64K | $3 / $15 | 코딩 특화 대폭 강화 |
| Opus 4 | 2025.05 | 72.5% | 76.9% | 200K | 32K | $15 / $75 | High-compute: SWE 79.4% |
| Opus 4.1 | 2025.08 | 74.5% | 80.9% | 200K | 64K | $15 / $75 | 에이전틱 태스크 특화 |
| Sonnet 4.5 | 2025.09 | 77.2% | 83.4% | 200K | 64K | $3 / $15 | "세계 최고 코딩 모델" |
| Haiku 4.5 | 2025.10 | - | - | 200K | 8K | $1 / $5 | 초고속 경량, 서브에이전트용 |
| Opus 4.5 | 2025.11 | 80.9% | 87.0% | 200K | 128K | $5 / $25 | 최초 SWE-bench 80% 돌파 |
| Opus 4.6 LATEST | 2026.02 | 80.8% | 91.3% | 200K 1M beta |
128K | $5 / $25 | Agent Teams, GPQA 91.3% |
| Sonnet 4.6 LATEST | 2026.02 | 79.6% | 74.1% | 200K 1M beta |
64K | $3 / $15 | 동적 웹 필터링, 가성비 |
Sonnet 3.5(49%) → Opus 4.6(80.8%): 1년 8개월간 +31.8%p 성장 (65% 향상)
Opus 4.6 (메인 추천)
복잡한 설계, 대규모 리팩토링, 심층 추론. GPQA 91.3%의 압도적 추론력. Fast Mode로 2.5x 빠른 출력 가능.
Sonnet 4.6 (빠른 작업)
일상 코딩, 반복 작업, 비용 최적화. SWE-bench 79.6%로 Opus급 코딩을 1/3 가격에.
Haiku 4.5 (서브에이전트)
파일 탐색, 간단한 분석. $1/$5의 초저비용으로 서브에이전트에 최적화.
터미널 (네이티브)
zsh, bash, PowerShell에서 직접 실행
VS Code Extension
에디터 내 인라인 AI 코딩
JetBrains Plugin
IntelliJ, WebStorm 등 지원
GitHub Actions
PR 자동 리뷰, 이슈 해결, 코드 생성
Headless Mode
비대화형 자동화 (스크립트, 파이프라인)
SDK (TypeScript/Python)
프로그래밍 방식으로 Claude Code 호출
커뮤니티 Skills
levnikolaevich, Trail of Bits 등 오픈소스 스킬
커스텀 Agents
code-reviewer, debugger, laravel-expert 등
MCP 서버 마켓
Slack, Notion, DB, Figma 등 수백 개 연동
사용 모델
Opus 4.6 (메인) + Haiku 4.5 (서브에이전트)
등록 Skills
40+ 스킬 (보안, 코드 품질, PPT, 문서 등)
등록 Agents
11개 (laravel-expert, debugger, git-manager 등)
자동화
커밋 → 자동 develop/main push (MNG)