SWE 벤치

SWE 벤치 · SWE-bench

카테고리: 커뮤니티·문화
난이도: intermediate
태그: SWE-bench · 벤치마크
슬러그: swe-bench
상태: published
정렬 순서: 187

정의

AI 코딩 에이전트의 실제 소프트웨어 엔지니어링 능력을 측정하는 벤치마크로, Princeton NLP 그룹이 2023년 10월에 발표했다. 단순한 코드 생성 능력이 아니라, 실제 오픈소스 GitHub 리포지토리에서 보고된 실제 이슈(버그 리포트, 기능 요청)를 해결하는 능력을 평가한다는 점에서 기존 벤치마크(HumanEval, MBPP 등)와 차별화된다. 테스트 과정: 에이전트에게 GitHub 이슈 설명과 관련 코드베이스가 주어지면, 에이전트가 코드를 수정하고 이 수정이 기존 테스트를 통과하는지 확인한다. 이는 실제 소프트웨어 개발 환경과 가장 유사한 평가 방식이다. 2026년 3월 기준 주요 성적: Claude Code 80.8%, Codex CLI 약 70%대(변형에 따라 상이). SWE-bench는 AI 코딩 도구 성능 비교의 사실상 표준(de facto standard)이 되었으며, 새로운 도구나 모델이 출시될 때 SWE-bench 성적이 가장 먼저 언급된다. SWE-bench Verified(검증된 하위 집합), SWE-bench Lite(경량 버전), Terminal Bench(터미널 에이전트 특화) 등의 변형도 존재한다.

영어 표기

SWE-bench

예시

Claude Code: SWE-bench 80.8%(2026년 3월 기준). 도구 성능 비교의 사실상 표준.

공식·관련 링크

www.swebench.com

Next step

용어를 읽은 다음 이어갈 흐름

가이드로 이동용어를 실제 작업 흐름에서 다시 보기

사전 정의를 읽은 뒤 바이브코딩 가이드에서 사용 맥락을 확인합니다.

질문하기이 용어가 내 작업에서 어떻게 쓰이나요?

궁금한 맥락을 Q&A로 넘겨 구체적인 답변 흐름으로 이어갑니다.

함께 읽기

SWE 벤치

SWE 벤치

용어를 읽은 다음 이어갈 흐름

연관 용어

메뉴 · 정책

SWE 벤치

SWE 벤치

용어를 읽은 다음 이어갈 흐름

연관 용어

안드레이 카파시

미첼 하시모토

바이브 코드 픽서