지연시간

지연시간 · Latency

카테고리: 성능·최적화
난이도: basic
태그: 지연시간 · 응답속도
슬러그: latency
상태: published
정렬 순서: 177

정의

요청을 보낸 후 응답을 받기까지 걸리는 시간으로, AI 코딩 도구에서는 프롬프트를 전송한 후 코드가 생성되기 시작할 때까지의 대기 시간을 의미한다. 밀리초(ms)에서 수 초(s)까지 다양하며, 개발자의 작업 흐름과 생산성에 직접적 영향을 미친다. AI 모델의 지연시간은 여러 요인에 의해 결정된다: 모델 크기(파라미터 수가 많을수록 느림), 입력 토큰 수(컨텍스트가 길수록 느림), 출력 토큰 수(긴 응답일수록 느림), 서버 부하(동시 사용자 수), 네트워크 거리(API 서버 위치). 바이브 코딩에서의 트레이드오프: Claude Opus 4.6은 가장 정확한 코드를 생성하지만 응답이 느리고, Codex mini나 Claude Sonnet은 빠르지만 복잡한 작업에는 부족하다. 이로 인해 많은 개발자가 '빠른 모델로 초안 생성 → 정확한 모델로 검증·수정'이라는 이중 모델 전략을 사용한다. 스트리밍 응답(streaming)은 전체 응답을 기다리지 않고 토큰이 생성되는 대로 표시하여 체감 지연을 줄이는 기법이며, 대부분의 AI 코딩 도구에서 기본으로 사용된다.

영어 표기

Latency

예시

Claude Opus 4.6은 높은 정확도를 제공하지만 응답 지연이 길 수 있고, Codex mini는 빠르지만 복잡한 작업에는 부족.

참고

모델 크기가 클수록 일반적으로 지연시간 증가.

Next step

용어를 읽은 다음 이어갈 흐름

가이드로 이동용어를 실제 작업 흐름에서 다시 보기

사전 정의를 읽은 뒤 바이브코딩 가이드에서 사용 맥락을 확인합니다.

질문하기이 용어가 내 작업에서 어떻게 쓰이나요?

궁금한 맥락을 Q&A로 넘겨 구체적인 답변 흐름으로 이어갑니다.

함께 읽기

지연시간

지연시간

용어를 읽은 다음 이어갈 흐름

연관 용어

메뉴 · 정책

지연시간

지연시간

용어를 읽은 다음 이어갈 흐름

연관 용어

번들 크기

지연 로딩

캐시