문제
현재 4개 평가 지표 중 AR(Answer Relevance)만 한국어 프롬프트가 적용되어 있고, 나머지 3개는 영어 기본 프롬프트로 한국어 데이터를 채점하고 있음.
| 지표 |
도구 |
채점 프롬프트 언어 |
| Answer Relevance |
Ragas |
✅ 한국어 (_make_ko_relevancy) |
| Faithfulness |
Ragas |
⚠️ 영어 (기본값) |
| Context Precision (ContextUtilization) |
Ragas |
⚠️ 영어 (기본값) |
| Contextual Relevancy |
DeepEval |
⚠️ 영어 (기본값) |
gpt-4o-mini의 다국어 능력으로 어느 정도 동작하지만, 영어 프롬프트가 한국어 컨텍스트의 관련성을 과소/과대 평가할 가능성이 있음.
할 일
참고
backend/eval/evaluator.py
- 실험 001 Round 2에서 CR이 전반적으로 낮게 나온 원인 중 하나일 수 있음
문제
현재 4개 평가 지표 중 AR(Answer Relevance)만 한국어 프롬프트가 적용되어 있고, 나머지 3개는 영어 기본 프롬프트로 한국어 데이터를 채점하고 있음.
_make_ko_relevancy)gpt-4o-mini의 다국어 능력으로 어느 정도 동작하지만, 영어 프롬프트가 한국어 컨텍스트의 관련성을 과소/과대 평가할 가능성이 있음.
할 일
참고
backend/eval/evaluator.py