SWE 벤치
AI 코딩 에이전트의 실제 소프트웨어 엔지니어링 능력을 측정하는 벤치마크로, Princeton NLP 그룹이 2023년 10월에 발표했다. 단순한 코드 생성 능력이 아니라, 실제 오픈소스 GitHub 리포지토리에서 보고된 실제 이슈(버그 리포트, 기능 요청)를 해결하는 능력을 평가한다는 점에서 기존 벤치마크(HumanEval, MBPP 등)와 차별화된다. 테스트 과정: 에이전트에게 GitHub 이슈 설명과 관련 코드베이스가 주어지면, 에이전트가 코드를 수정하고 이 수정이 기존 테스트를 통과하는지 확인한다. 이는 실제 소프트웨어 개발 환경과 가장 유사한 평가 방식이다. 2026년 3월 기준 주요 성적: Claude Code 80.8%, Codex CLI 약 70%대(변형에 따라 상이). SWE-bench는 AI 코딩 도구 성능 비교의 사실상 표준(de facto standard)이 되었으며, 새로운 도구나 모델이 출시될 때 SWE-bench 성적이 가장 먼저 언급된다. SWE-bench Verified(검증된 하위 집합), SWE-bench Lite(경량 버전), Terminal Bench(터미널 에이전트 특화) 등의 변형도 존재한다.
예시
Claude Code: SWE-bench 80.8%(2026년 3월 기준). 도구 성능 비교의 사실상 표준.
공식·관련 링크
www.swebench.com카테고리
커뮤니티·문화
난이도
intermediate
태그
SWE-bench · 벤치마크
함께 읽기
연관 용어
커뮤니티·문화
안드레이 카파시
AI 연구자이자 교육자, Tesla 전 AI 디렉터, OpenAI 공동 창립 멤버로, 바이브 코딩 시대의 가장 영향력 있는 인물 중 한 명이다. 2025년 2월 2일 X(구 트위터)에서 '바이브 코딩(Vibe Coding)'이라는 용어를 처음 사용하며, 'fully give in to the vibes, embrace exponentials, and forget that the code even exists'라는 설명을 남겼다. 이 한 줄의 트윗이 전 세계 개발자 커뮤니티를 뒤흔들었고, 2025년 Collins Dictionary '올해의 단어'로까지 선정되었다. 이후 2026년 초에는 '에이전틱 엔지니어링(Agentic Engineering)'이라는 후속 개념을 제시하여, 바이브 코딩의 한계를 넘어 체계적인 AI 에이전트 활용 방법론을 제안했다. Stanford University에서 컴퓨터 비전 과정을 강의했던 교육자 경험을 바탕으로, YouTube 등에서 AI와 딥러닝에 대한 교육 콘텐츠를 제작하여 지식 대중화에도 기여하고 있다. 그의 발언과 글은 바이브 코딩 커뮤니티에서 높은 권위를 가지며, '카파시가 이렇게 말했다'는 것이 하나의 논거로 사용될 정도이다.
커뮤니티·문화
미첼 하시모토
HashiCorp의 공동 창립자로, Terraform(인프라 코드화), Vagrant(개발 환경 자동화), Consul(서비스 메시), Vault(비밀 관리) 등 현대 DevOps 생태계를 정의한 도구들을 만든 인물이다. 인프라와 시스템 엔지니어링에 대한 깊은 경험을 바탕으로, 2026년 2월 '하네스 엔지니어링(Harness Engineering)'이라는 용어를 명명하고 체계화했다. 그의 핵심 철학은 '에이전트가 실수할 때마다, 같은 실수를 반복할 수 없도록 환경을 개선하라'이며, 이를 AGENTS.md 파일의 반복적 개선으로 구현한다. 구체적으로, AI 에이전트가 프로젝트의 코딩 컨벤션을 위반할 때마다 해당 규칙을 AGENTS.md에 명시적으로 추가하고, 잘못된 명령어를 실행할 때마다 가드레일을 강화하는 식이다. 이 접근 방식은 그가 HashiCorp에서 수십만 대의 서버 인프라를 관리하며 체득한 '시스템은 사람이 아니라 환경이 개선해야 한다'는 운영 철학의 AI 시대 적용이다.
커뮤니티·문화
바이브 코드 픽서
AI가 생성한 코드를 전문적으로 검토·수정·안정화하여 프로덕션 준비 상태로 만드는 새로운 역할 또는 직업이다. 바이브 코딩의 급속한 확산으로 비개발자나 주니어 개발자가 AI를 활용해 앱을 만드는 사례가 폭증했지만, 이러한 앱은 종종 보안 취약점, 성능 문제, 유지보수 불가능한 구조를 가지고 있다. Vibe Code Fixer는 이런 AI 생성 코드를 받아서 보안 취약점 수정(인증·인가 로직 보강, SQL 인젝션 방어 등), 성능 최적화(쿼리 최적화, 불필요한 렌더링 제거), 코드 구조 개선(중복 제거, 모듈 분리, 에러 처리 추가), 테스트 작성, 배포 파이프라인 설정 등 프로덕션 준비 작업을 수행한다. 이 역할이 등장한 배경에는 '바이브 코딩의 민주화'와 '프로덕션 품질 격차' 사이의 간극이 있다. 2025년 11월부터 LinkedIn과 개발자 커뮤니티에서 이 역할에 대한 논의가 활발해졌으며, 프리랜서 마켓플레이스에서 'AI 코드 리뷰 및 수정' 서비스가 급증하고 있다.