바이브 코딩 사전

가드레일

바이브 코딩 사전

가드레일

LLM의 출력이 지정된 제약 조건과 안전 가이드라인을 준수하도록 보장하는 다층적 안전 메커니즘이다. '가드레일'이라는 명칭은 도로의 가드레일이 차량이 도로를 벗어나는 것을 방지하듯, AI가 허용된 범위를 벗어나는 행동을 차단한다는 비유에서 유래했다. 바이브 코딩에서 가드레일은 세 가지 수준으로 나뉜다: 코드 수준(린터로 스타일 위반 감지, TypeScript 타입 체크로 타입 오류 방지), 실행 수준(터미널 명령어 허용 목록 관리, 'rm -rf /' 같은 위험 명령 차단, 특정 디렉토리 밖 접근 금지), 출력 수준(생성된 코드에 보안 취약점이 없는지 스캔, 민감 정보 노출 방지). YOLO Mode(자동 실행)를 사용할 때는 가드레일이 특히 중요하며, 가드레일 없는 YOLO Mode는 에이전트에게 '검증 없이 아무거나 실행해도 된다'고 허락하는 것과 같다. 하네스 엔지니어링의 핵심 구성 요소로, 가드레일의 수준과 정밀도가 에이전틱 워크플로의 안전성을 결정한다.

예시

AI 코딩 에이전트가 'rm -rf /' 같은 위험한 명령어를 실행하지 못하도록 차단하는 규칙.

참고

하네스 엔지니어링의 핵심 구성 요소.

카테고리

하네스 엔지니어링

난이도

intermediate

태그

가드레일 · 안전장치

함께 읽기

연관 용어

핵심 개념

휴먼 인 더 루프

AI 시스템의 작업 흐름에서 주요 결정 지점마다 사람이 검토·승인하는 구조. 완전 자동화(AI가 모든 것을 결정)와 완전 수동(인간이 모든 것을 작성) 사이의 균형점을 제공하는 설계 원칙이다. 바이브 코딩에서 HITL의 핵심은 'AI가 생성하고, 인간이 검증한다'는 역할 분담에 있다. 구체적으로, AI 에이전트가 코드를 생성하고 테스트를 실행한 뒤, PR 생성 시점에서 인간 개발자가 아키텍처 적합성, 보안, 비즈니스 로직 정확성을 리뷰한 후 머지를 결정하는 패턴이 대표적이다. Stripe의 Minions 시스템이 HITL의 대표적 사례로, Slack에서 작업을 할당하면 AI가 코드 작성·CI 통과·PR 생성까지 자율적으로 수행하지만, 최종 머지는 반드시 인간 개발자가 결정한다. 에이전틱 엔지니어링의 PEV(Plan → Execute → Verify) 루프에서 'Verify' 단계가 HITL에 해당하며, AI의 자율성이 높아질수록 HITL의 적절한 개입 지점을 설계하는 것이 더욱 중요해진다.

프롬프트 엔지니어링

시스템 프롬프트

AI 모델의 행동, 역할, 제약 조건, 출력 형식을 설정하는 초기 지시문으로, 사용자의 개별 메시지(user prompt)와 구분되어 전체 대화 세션에 걸쳐 영향을 미친다. 비유하면, 시스템 프롬프트는 '대화가 시작되기 전에 AI에게 주는 비밀 브리핑(briefing)'이다. 바이브 코딩에서 시스템 프롬프트는 AI의 코딩 스타일을 결정하는 핵심 요소로, '당신은 시니어 TypeScript 개발자입니다. strict mode를 사용하고, 모든 타입을 명시적으로 선언하세요. any 타입 사용을 금지합니다.'처럼 역할과 제약을 설정하면, 이후 모든 코드 생성에 이 규칙이 적용된다. Cursor의 .cursorrules, Claude Code의 CLAUDE.md, Windsurf의 .windsurfrules 등 프로젝트별 규칙 파일은 사실상 해당 도구에 특화된 시스템 프롬프트이다. API를 직접 사용할 때는 system 역할의 메시지로 전달하며, 사용자 메시지보다 우선순위가 높지만, 프롬프트 인젝션 공격에 의해 우회될 수 있으므로 보안에 주의해야 한다.

하네스 엔지니어링

하네스 엔지니어링

AI 에이전트를 둘러싼 전체 운영 환경을 설계하는 기술로, 프롬프트나 컨텍스트뿐 아니라 에이전트가 사용하는 도구, 권한, 상태 관리, 테스트 게이트, 가드레일, 로그, 재시도 메커니즘, 샌드박스 등 '모델 주위의 모든 것'을 포함한다. 2026년 2월 Mitchell Hashimoto(HashiCorp 공동 창립자)가 체계화한 개념으로, 비유하면 '모델은 엔진, 컨텍스트는 연료와 계기판, 하네스는 나머지 전부 — 핸들, 브레이크, 차선, 경고등, 안전벨트, 에어백'이다. 구체적인 하네스 구성 요소: 가드레일(위험한 행위 차단), 품질 게이트(린트·테스트·보안 스캔 통과 필수), 샌드박스(격리된 실행 환경), 텔레메트리(에이전트 행동 로깅), 재시도 로직(실패 시 자동 재시도), 컨텍스트 관리 규칙(AGENTS.md 업데이트 정책). 핵심 철학은 '에이전트가 실수할 때마다, 다음에는 같은 실수를 할 수 없도록 환경을 개선하라'이며, 이는 AGENTS.md에 새로운 규칙을 추가하는 것으로 실현된다. 관계 정리: Prompt Engineering(무엇을 묻는가) → Context Engineering(모델이 무엇을 보는가) → Harness Engineering(전체 시스템이 어떻게 동작하는가). Harness Engineering이 가장 상위 개념이며 나머지를 모두 포함한다.