NEWS
10

토큰 경제학


LLM 비용/지연 시간 통제 전략

LLM 제품의 비용은 모델 가격이 아니라 운영 설계에서 결정됩니다. 비용을 줄이면서 품질을 유지하는 레버를 정리합니다.

$/1K
입력 토큰
$$/1K
출력 토큰
ms/토큰
지연 시간
0
캐시

토큰 = 비용

API 가격표가 아닌 실제 비용: 프롬프트 길이 + 컨텍스트 재사용 + 재시도 횟수 + 출력 길이의 합

토큰 = 지연

입력이 길어질수록 지연 시간도 증가. 모델이 똑똑해도 느리면 사용자는 떠납니다.

비용을 줄이는 레버 6가지

입력 프롬프트 최소화

불필요한 설명/시스템 프롬프트 압축

20-40%

출력 길이 상한

요약/표/bullet 형식으로 제한

30-50%

캐시 재사용

동일한 정책/규칙은 매번 보내지 않기

50-70%

단계 분리

저렴한 모델→초안, 비싼 모델→검증

40-60%

실패 전략

재시도 횟수·타임아웃·대체 경로 설정

10-20%

관측(Observability)

어떤 호출이 비용을 먹는지 로그로 확인

지속적

라우팅 전략: “항상 최고 모델”은 비싸다

간단한 요청

분류, 추출, 간단한 답변

Flash / Mini
중간 복잡도

요약, 번역, 일반 생성

Sonnet / GPT-4
고난도 추론

복잡한 분석, 코딩, 검증

Opus / o1

핵심

라우팅은 단순 비용 절감이 아니라 UX 최적화입니다. 빠른 응답이 중요한 구간과 깊은 사고가 중요한 구간을 분리하세요.

비용 레버

%

최대 절감률

+

모델 티어

최적화 가능성

비용은 모델이 아닌 운영에서 결정된다

프롬프트 압축 + 출력 제한 + 캐싱 + 라우팅 + 관측
이 5가지 레버를 조합하면 품질을 유지하면서 비용을 대폭 절감할 수 있습니다.

#Cost
#Latency
#Routing
#Caching
#LLM

2025-12-21 · 럿지 AI 팀