Skip to content

fix: 평가 지표 채점 프롬프트 한국어 적용 #69

@jeongye01

Description

@jeongye01

문제

현재 4개 평가 지표 중 AR(Answer Relevance)만 한국어 프롬프트가 적용되어 있고, 나머지 3개는 영어 기본 프롬프트로 한국어 데이터를 채점하고 있음.

지표 도구 채점 프롬프트 언어
Answer Relevance Ragas ✅ 한국어 (_make_ko_relevancy)
Faithfulness Ragas ⚠️ 영어 (기본값)
Context Precision (ContextUtilization) Ragas ⚠️ 영어 (기본값)
Contextual Relevancy DeepEval ⚠️ 영어 (기본값)

gpt-4o-mini의 다국어 능력으로 어느 정도 동작하지만, 영어 프롬프트가 한국어 컨텍스트의 관련성을 과소/과대 평가할 가능성이 있음.

할 일

  • 각 지표별 내부 채점 프롬프트 확인 (Ragas/DeepEval 소스 코드)
  • 한국어 프롬프트 커스텀 적용 가능 여부 조사
  • 적용 후 동일 질문 세트로 점수 비교 (프롬프트 변경 전/후)

참고

  • backend/eval/evaluator.py
  • 실험 001 Round 2에서 CR이 전반적으로 낮게 나온 원인 중 하나일 수 있음

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type
    No fields configured for issues without a type.

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions