⌘

Anthropic

Claude Code 발전과정

2025년 2월 터미널에서 시작된 AI 코딩 에이전트의 혁신적 여정. 프로토타입에서 엔터프라이즈 개발 플랫폼으로 성장한 Claude Code의 이야기.

13개월 개발 기간

9세대 모델 진화

80.8% SWE-bench

Opus 4.6 최신 모델

v0.1 2025.02.24

탄생 — Research Preview

Anthropic 내부 해커톤에서 출발. 터미널에서 Claude와 대화하며 코드를 작성하는 실험적 도구로 시작. "개발자의 터미널에 AI를 심는다"는 비전.

터미널 기반 대화 파일 읽기/쓰기 Bash 실행 Sonnet 3.5

탄생

v1.0 2025.05.22

정식 출시 — General Availability

2025년 5월 22일, Claude 4 Sonnet/Opus와 동시 공개. VS Code/JetBrains IDE 통합, GitHub Actions 지원, SDK 공개. Max/Pro 구독 모델 도입.

Max/Pro 구독 Git 통합 멀티파일 편집 CLAUDE.md

v1.0.x 2025.05.14

Claude 4 Sonnet — 코딩 특화 모델

Claude 4 Sonnet 출시. SWE-bench 72.7%로 당시 최고 성적. 코드 이해도와 정확성이 급격히 향상되며 Claude Code의 실전 능력이 도약.

Claude 4 Sonnet SWE-bench 72.7% 확장 사고(Extended Thinking) 병렬 도구 호출

MCP

v1.x 2025.06~08

생태계 폭발 — MCP & Hooks & Skills

Model Context Protocol(MCP)로 외부 도구 연동 표준화. Hooks, Custom Skills, Custom Agents 시스템으로 확장성 극대화. 커뮤니티 생태계 급성장.

MCP 프로토콜 Hooks 시스템 Custom Skills Custom Agents 메모리 시스템

v1.x 2025.08~09

Opus 4.1 & Sonnet 4.5 — 에이전틱 도약

Opus 4.1(8/5) — 에이전틱 태스크 특화 강화, SWE-bench 74.5%. Sonnet 4.5(9/29) — SWE-bench 77.2%로 "세계 최고의 코딩 모델" 등극. 서브에이전트, Plan Mode, Skills 시스템 도입.

Opus 4.1 (SWE 74.5%) Sonnet 4.5 (SWE 77.2%) 서브에이전트 & Plan Mode Skills 시스템

4.5

4.5O

v1.x 2025.11.24

Opus 4.5 — 최초 80% 돌파

SWE-bench 80.9%로 인류 최초 80% 벽 돌파. Sonnet 4.5 대비 76% 적은 토큰으로 동일 성능 달성. Infinite Chats로 컨텍스트 제한 해소. Claude Code $1B 런레이트 매출 달성.

SWE-bench 80.9% Infinite Chats GPQA 87.0% 토큰 효율 76%↑

v1.x 2026.01~현재 CURRENT

Opus 4.6 & Sonnet 4.6 — 현재

Opus 4.6 (2/5) — GPQA 91.3%, Agent Teams, Adaptive Thinking 4단계. Sonnet 4.6 (2/17) — 1M 컨텍스트 베타, Opus 성능의 99%를 1/5 가격에. Cowork(비개발자 GUI), Claude Code Security, Auto Memory 출시.

Opus 4.6 (GPQA 91.3%) Sonnet 4.6 Agent Teams 1M Context (beta) Adaptive Thinking Fast Mode 2.5x

NOW

Claude Code를 특별하게 만든 핵심 혁신

CLAUDE.md — 프로젝트 컨텍스트

프로젝트 루트의 CLAUDE.md 파일로 코딩 규칙, 아키텍처, 금지사항을 정의. AI가 프로젝트 문화를 학습하고 일관된 코드를 작성.

# CLAUDE.md
## Git 커밋 규칙
- feat: 새 기능 | fix: 버그 수정
## DB 규칙
- 마이그레이션은 API에서만 생성
- MNG에서 migrate 실행 금지

MCP — 무한 확장 프로토콜

Model Context Protocol로 외부 도구(Slack, DB, API 등)를 표준화된 방식으로 연결. Claude Code가 단순 코딩 도구에서 통합 개발 허브로 진화한 핵심.

Slack 연동 DB 직접 조회 JIRA/Linear Figma 커스텀 서버

Skills & Agents — 재사용 가능한 전문성

반복 작업을 SKILL.md로 패키징. 슬래시 명령어(/skill-name)로 호출. 커뮤니티가 만든 수백 개의 스킬을 즉시 활용 가능.

우리 팀 사용 예시:

• /pptx-skill — PPT 자동 생성

• /sam-docs-writer — 문서 규칙 자동 적용

• /webapp-testing — Playwright UI 테스트

서브에이전트 & 병렬 작업

복잡한 작업을 여러 서브에이전트에 위임하여 병렬 처리. Worktree를 활용한 독립 작업 공간에서 동시에 여러 기능을 개발.

실행 흐름:

메인 에이전트 → 분석 에이전트 (탐색)

→ 구현 에이전트 (코딩)

→ 테스트 에이전트 (검증)

메인 에이전트 ← 결과 통합 ← 커밋

자동 메모리 — 세션 간 학습

대화가 끝나도 중요한 패턴과 교훈을 MEMORY.md에 자동 저장. 다음 세션에서 동일한 실수를 반복하지 않음. 프로젝트와 함께 성장하는 AI.

저장하는 것: 검증된 패턴, 아키텍처 결정, 사용자 선호

저장하지 않는 것: 임시 작업, 미검증 추측

Hooks — 안전한 자동화

도구 실행 전후에 자동으로 스크립트를 실행. Lint 자동 적용, 위험 명령 차단, 커밋 메시지 검증 등을 자동화. HTTP Hooks로 외부 서비스 연동도 가능.

PreCommit → lint + format
PostCommit → 자동 push (MNG)
PreBash → 위험 명령 차단

Claude 모델별 특징 비교

각 모델의 핵심 역량, 벤치마크 성능, 적합한 사용 시나리오를 한눈에 비교합니다.

Flagship — 최고 성능

Flagship

Claude Opus 4.6

2026.02.05

claude-opus-4-6 — Anthropic 최고 지능 + 최고 속도

Context

200K

1M beta

Max Output

128K

Price

$5/$25

in/out MTok

SWE-bench Verified80.8%

GPQA Diamond91.3%

ARC-AGI 268.8%

OSWorld72.7%

MRCR 256K (Long Context)93.0%

핵심 강점

Agent Teams Adaptive Thinking Fast Mode 2.5x 최고 추론력 128K 출력

적합한 작업

대규모 아키텍처 설계, 복잡한 리팩토링, 멀티파일 코드 생성, 심층 분석 및 추론이 필요한 작업. SAM 프로젝트의 메인 모델.

Flagship

Claude Opus 4.5

2025.11.24

인류 최초 SWE-bench 80% 돌파, Claude Code $1B 매출 달성

Context

200K

1M beta

Max Output

128K

Price

$5/$25

in/out MTok

SWE-bench Verified80.9%

GPQA Diamond87.0%

ARC-AGI 237.6%

핵심 강점

Infinite Chats 토큰 효율 76%↑ 최초 80% 돌파

역사적 의의

SWE-bench에서 최초로 80%를 돌파한 모델. 같은 수준의 성능을 Sonnet 4.5 대비 76% 적은 출력 토큰으로 달성하는 효율성 혁신.

Balanced — 성능과 비용의 균형

Balanced

Claude Sonnet 4.6

2026.02.17

claude-sonnet-4-6 — Opus급 코딩 성능을 1/3 가격에

Context

200K

1M beta

Max Output

64K

Price

$3/$15

in/out MTok

SWE-bench Verified79.6%

GPQA Diamond74.1%

ARC-AGI 258.3%

OSWorld72.5%

핵심 강점

1M Context (beta) 가성비 최강 Adaptive Thinking 동적 웹 필터링

적합한 작업

일상적 코딩, 빠른 반복 작업, 비용 최적화. SWE-bench에서 Opus 4.6과 1.2%p 차이로 대부분의 코딩 작업에서 Opus급 성능 발휘.

Balanced

Claude Sonnet 4.5

2025.09

"세계 최고의 코딩 모델"로 불린 당시 최고 성능 Sonnet

Context

200K

SWE-bench

77.2%

Price

$3/$15

SWE-bench Verified77.2%

GPQA Diamond83.4%

OSWorld61.4%

역사적 의의

출시 당시 SWE-bench 최고 점수 기록. 30시간 이상 집중 작업이 가능한 안정성으로 "세계 최고의 코딩 모델"이라는 평가를 받음.

이전 세대 & 경량 모델

Claude Opus 4.1

2025.08.05 | $15/$75

SWE-bench74.5%

GPQA Diamond80.9%

200K context | Opus 4의 에이전틱 태스크 특화 업그레이드. 다중 파일 리팩토링, 심층 연구, 도구 호출 안정성 강화.

Claude 4 Opus

2025.05.22 | $15/$75

SWE-bench72.5%

GPQA Diamond76.9%

200K context | High-compute에서 SWE-bench 79.4%, AIME 90.0%. Extended Thinking 중 도구 사용 최초 지원.

Claude 4 Sonnet

2025.05.22 | $3/$15

SWE-bench72.7%

200K (1M beta) | Extended Thinking 본격 도입. 당시 Opus 4보다 SWE-bench에서 높은 점수를 기록한 가성비 모델.

Claude 3.7 Sonnet

2025.02 | $3/$15

SWE-bench70.3%

GPQA (Extended)84.8%

200K context | Extended Thinking 최초 도입. 확장 모드에서 MATH 500 96.2% 달성. Claude Code의 기반이 된 모델.

Claude 3.5 Sonnet

2024.06 (Oct 업그레이드) | $3/$15

SWE-bench62.3%

GPQA Diamond59.4%

200K context | Claude Code 최초 탑재 모델. 당시 혁신적이었으나 현재 모델들과 비교하면 성능 차이가 뚜렷.

Claude Haiku 4.5

2025.10.15 | $1/$5

SWE-bench73.3%

200K context | 64K output | Extended Thinking 지원

서브에이전트 최적 Sonnet 4.5급 성능 4~5x 빠른 응답 최저 비용 $1/$5

SWE-bench 73.3% — Sonnet 4.5 대비 5%p 이내이면서 1/3 비용. Claude Code 서브에이전트(Explore 등)에 최적화.

Opus 4.6 vs Sonnet 4.6 — 핵심 차이점

항목	Opus 4.6	Sonnet 4.6	차이
SWE-bench	80.8%	79.6%	1.2%p
GPQA Diamond	91.3%	74.1%	17.2%p
ARC-AGI 2	68.8%	58.3%	10.5%p
OSWorld	72.7%	72.5%	0.2%p
Max Output	128K tokens	64K tokens	2x
가격 (Input/Output)	$5 / $25	$3 / $15	40~67% 절감

결론: 코딩(SWE-bench)과 컴퓨터 사용(OSWorld)에서는 거의 동등한 성능. 추론(GPQA)에서 Opus 4.6이 압도적 우위(17%p 차이). 비용 대비 코딩 성능만 보면 Sonnet 4.6이 최적, 심층 추론이 필요하면 Opus 4.6 선택.

Claude 모델 세대별 진화

Sonnet 3.5에서 Opus 4.6까지 — SWE-bench 49%에서 80.8%로, 1년 반 만에 65% 성능 향상.

모델	출시일	SWE-bench	GPQA	Context	Output	가격 (In/Out)	핵심 혁신
Sonnet 3.5	2024.06	49.0%	59.4%	200K	8K	$3 / $15	Claude Code 최초 모델
Sonnet 3.5 v2	2024.10	62.3%	-	200K	8K	$3 / $15	Computer Use 도입
Sonnet 3.7	2025.02	70.3%	84.8%	200K	64K	$3 / $15	Extended Thinking 최초 도입
Sonnet 4	2025.05	72.7%	-	200K	64K	$3 / $15	코딩 특화 대폭 강화
Opus 4	2025.05	72.5%	76.9%	200K	32K	$15 / $75	High-compute: SWE 79.4%
Opus 4.1	2025.08	74.5%	80.9%	200K	64K	$15 / $75	에이전틱 태스크 특화
Sonnet 4.5	2025.09	77.2%	83.4%	200K	64K	$3 / $15	"세계 최고 코딩 모델"
Haiku 4.5	2025.10	-	-	200K	8K	$1 / $5	초고속 경량, 서브에이전트용
Opus 4.5	2025.11	80.9%	87.0%	200K	128K	$5 / $25	최초 SWE-bench 80% 돌파
Opus 4.6 LATEST	2026.02	80.8%	91.3%	200K 1M beta	128K	$5 / $25	Agent Teams, GPQA 91.3%
Sonnet 4.6 LATEST	2026.02	79.6%	74.1%	200K 1M beta	64K	$3 / $15	동적 웹 필터링, 가성비

SWE-bench Verified 성장 추이 (2024~2026)

3.5 Sonnet

49.0%

3.5 v2

62.3%

3.7 Sonnet

70.3%

Sonnet 4

72.7%

Haiku 4.5

73.3%

Opus 4.1

74.5%

Sonnet 4.5

77.2%

Sonnet 4.6

79.6%

Opus 4.6

80.8%

Sonnet 3.5(49%) → Opus 4.6(80.8%): 1년 8개월간 +31.8%p 성장 (65% 향상)

Claude Code 모델 선택 가이드

Opus 4.6 (메인 추천)

복잡한 설계, 대규모 리팩토링, 심층 추론. GPQA 91.3%의 압도적 추론력. Fast Mode로 2.5x 빠른 출력 가능.

Sonnet 4.6 (빠른 작업)

일상 코딩, 반복 작업, 비용 최적화. SWE-bench 79.6%로 Opus급 코딩을 1/3 가격에.

Haiku 4.5 (서브에이전트)

파일 탐색, 간단한 분석. $1/$5의 초저비용으로 서브에이전트에 최적화.

Claude Code 생태계

IDE 통합

⌨

터미널 (네이티브)

zsh, bash, PowerShell에서 직접 실행

💻

VS Code Extension

에디터 내 인라인 AI 코딩

🧠

JetBrains Plugin

IntelliJ, WebStorm 등 지원

CI/CD 연동

🔄

GitHub Actions

PR 자동 리뷰, 이슈 해결, 코드 생성

🏗

Headless Mode

비대화형 자동화 (스크립트, 파이프라인)

📋

SDK (TypeScript/Python)

프로그래밍 방식으로 Claude Code 호출

커뮤니티 생태계

📦

커뮤니티 Skills

levnikolaevich, Trail of Bits 등 오픈소스 스킬

🤖

커스텀 Agents

code-reviewer, debugger, laravel-expert 등

🔌

MCP 서버 마켓

Slack, Notion, DB, Figma 등 수백 개 연동

SAM 프로젝트 팀의 Claude Code 활용 현황

사용 모델

Opus 4.6 (메인) + Haiku 4.5 (서브에이전트)

등록 Skills

40+ 스킬 (보안, 코드 품질, PPT, 문서 등)

등록 Agents

11개 (laravel-expert, debugger, git-manager 등)

자동화

커밋 → 자동 develop/main push (MNG)