fix: 평가 지표 채점 프롬프트 한국어 적용

## 문제

현재 4개 평가 지표 중 AR(Answer Relevance)만 한국어 프롬프트가 적용되어 있고, 나머지 3개는 영어 기본 프롬프트로 한국어 데이터를 채점하고 있음.

| 지표 | 도구 | 채점 프롬프트 언어 |
|---|---|---|
| Answer Relevance | Ragas | ✅ 한국어 (`_make_ko_relevancy`) |
| Faithfulness | Ragas | ⚠️ 영어 (기본값) |
| Context Precision (ContextUtilization) | Ragas | ⚠️ 영어 (기본값) |
| Contextual Relevancy | DeepEval | ⚠️ 영어 (기본값) |

gpt-4o-mini의 다국어 능력으로 어느 정도 동작하지만, 영어 프롬프트가 한국어 컨텍스트의 관련성을 과소/과대 평가할 가능성이 있음.

## 할 일

- [ ] 각 지표별 내부 채점 프롬프트 확인 (Ragas/DeepEval 소스 코드)
- [ ] 한국어 프롬프트 커스텀 적용 가능 여부 조사
- [ ] 적용 후 동일 질문 세트로 점수 비교 (프롬프트 변경 전/후)

## 참고

- `backend/eval/evaluator.py`
- 실험 001 Round 2에서 CR이 전반적으로 낮게 나온 원인 중 하나일 수 있음

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

fix: 평가 지표 채점 프롬프트 한국어 적용 #69

문제

할 일

참고

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

지표	도구	채점 프롬프트 언어
Answer Relevance	Ragas	✅ 한국어 (`_make_ko_relevancy`)
Faithfulness	Ragas	⚠️ 영어 (기본값)
Context Precision (ContextUtilization)	Ragas	⚠️ 영어 (기본값)
Contextual Relevancy	DeepEval	⚠️ 영어 (기본값)

fix: 평가 지표 채점 프롬프트 한국어 적용 #69

Description

문제

할 일

참고

Metadata

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

Issue actions