EVALUATION

13분

LLM 평가 플레이북

모델/프롬프트 바꿀 때 반드시 필요한 것

벤치마크 점수만으로는 제품 품질을 보장할 수 없습니다. 운영 가능한 평가 체계를 최소 단위로 설계하는 방법을 정리합니다.

평가 축

최소 케이스

채점 전략

∞

개선 루프

감(感)으로는 운영할 수 없다

LLM은 같은 프롬프트라도 결과가 흔들립니다. 모델 선택, 프롬프트 변경, 지식베이스 업데이트는 결국 “품질 변화”를 만듭니다.

측정이 없으면, 개선인지 악화인지 알 수 없습니다.
평가 체계를 만들면 “좋아졌다/나빠졌다”를 숫자와 예시로 말할 수 있습니다.

평가 축 4가지

정확도

근거에 기반해 사실을 맞추는가

유용성

사용자의 목적을 달성하는가

안전

금지 영역/민감정보를 처리하는가

형식

JSON/표/규칙 등 포맷을 지키는가

평가 데이터셋은 “현업 로그”에서 나온다

사용자 로그

가장 현실적인 데이터 소스

50~200 케이스

대표 케이스로 시작

점진적 확장

장애/불만 케이스 중심

초기 셋업 팁

“많이 모으고 시작”보다 “작게 시작해 반복 개선”이 낫습니다. 첫 목표는 완벽한 평가가 아니라, 회귀(regression)를 잡아내는 최소 체계를 만드는 것입니다.

Judge(채점) 전략

룰 기반

JSON 파싱, 필수 키, 금지어 검사

모델 기반

답변 적합성, 근거 충분성 판정

혼합

룰→모델→사람 샘플 검수

측정 없이는 개선 없다

정확도 · 유용성 · 안전 · 형식
4가지 축으로 분리하고, 룰 + 모델 + 사람으로 검증하세요.

#Evaluation

#Regression

#Quality

#Ops

#LLM

2025-12-21 · 럿지 AI 팀

LLM 평가 플레이북모델/프롬프트 바꿀 때 반드시 필요한 것