EVALUATION
13분
LLM 평가 플레이북
모델/프롬프트 바꿀 때 반드시 필요한 것
벤치마크 점수만으로는 제품 품질을 보장할 수 없습니다. 운영 가능한 평가 체계를 최소 단위로 설계하는 방법을 정리합니다.
평가 축
+
최소 케이스
채점 전략
∞
개선 루프
감(感)으로는 운영할 수 없다
LLM은 같은 프롬프트라도 결과가 흔들립니다. 모델 선택, 프롬프트 변경, 지식베이스 업데이트는 결국 “품질 변화”를 만듭니다.
측정이 없으면, 개선인지 악화인지 알 수 없습니다.
평가 체계를 만들면 “좋아졌다/나빠졌다”를 숫자와 예시로 말할 수 있습니다.
평가 축 4가지
평가 축 4가지
정확도
근거에 기반해 사실을 맞추는가
유용성
사용자의 목적을 달성하는가
안전
금지 영역/민감정보를 처리하는가
형식
JSON/표/규칙 등 포맷을 지키는가
평가 데이터셋은 “현업 로그”에서 나온다
평가 데이터셋은 “현업 로그”에서 나온다
사용자 로그
가장 현실적인 데이터 소스
50~200 케이스
대표 케이스로 시작
점진적 확장
장애/불만 케이스 중심
초기 셋업 팁
“많이 모으고 시작”보다 “작게 시작해 반복 개선”이 낫습니다. 첫 목표는 완벽한 평가가 아니라, 회귀(regression)를 잡아내는 최소 체계를 만드는 것입니다.
Judge(채점) 전략
Judge(채점) 전략
룰 기반
JSON 파싱, 필수 키, 금지어 검사
%
모델 기반
답변 적합성, 근거 충분성 판정
%
혼합
룰→모델→사람 샘플 검수
%
측정 없이는 개선 없다
측정 없이는 개선 없다
정확도 · 유용성 · 안전 · 형식
4가지 축으로 분리하고, 룰 + 모델 + 사람으로 검증하세요.
#Evaluation
#Regression
#Quality
#Ops
#LLM
2025-12-21 · 럿지 AI 팀