배경 / 문제
팀 공식 골든셋 100케이스 중 12건(요단백·위내시경·대장내시경·복부초음파·B형간염 표면항원·복합검사)은 비수치 소견·다중 수치라 현재 도메인이 지원하지 않습니다. 임시로 평가 스크립트(clinical_eval.py)에 위험도가 하드코딩되어 있어, 평가는 통과하지만 실제 시스템은 이 항목을 해석하지 못합니다(검색 Coverage 88%, Emergency Recall 80% - RAG-093 복합검사 응급 누락).
제안 내용
평가 하드코딩을 실제 도메인으로 승격하여 시스템이 정성 소견·복합검사를 실제로 처리하게 합니다.
findings.py - 정성 소견 근거 KB(소견별 flag·해설·출처), classify_finding
composite.py - 복합검사 다중 수치 분해기(축약 표기 보정), 구성 항목별 분류 후 최댓값 집계
- 평가기는 하드코딩 제거 후 도메인 모듈 호출로 교체
고민 (기술 선택 이유)
| 후보 |
장점 |
단점 |
| (채택) 도메인 소견 KB + 분해기 |
실제 시스템 지원, 평가-시스템 일치 |
소견 KB 검수 부담 |
| 평가 스크립트 하드코딩 유지 |
빠름 |
시스템 미지원, 평가 과대표현 |
평가 지표
| 지표 |
목표값 |
측정 방법 |
| Coverage |
100% |
시스템 채점 가능 케이스 비율 |
| Emergency Detection Recall |
100% |
복합검사 포함 응급 검출 |
| Clinical Correctness |
95% 이상 |
risk_level 일치율 |
완료 조건
배경 / 문제
팀 공식 골든셋 100케이스 중 12건(요단백·위내시경·대장내시경·복부초음파·B형간염 표면항원·복합검사)은 비수치 소견·다중 수치라 현재 도메인이 지원하지 않습니다. 임시로 평가 스크립트(clinical_eval.py)에 위험도가 하드코딩되어 있어, 평가는 통과하지만 실제 시스템은 이 항목을 해석하지 못합니다(검색 Coverage 88%, Emergency Recall 80% - RAG-093 복합검사 응급 누락).
제안 내용
평가 하드코딩을 실제 도메인으로 승격하여 시스템이 정성 소견·복합검사를 실제로 처리하게 합니다.
findings.py- 정성 소견 근거 KB(소견별 flag·해설·출처),classify_findingcomposite.py- 복합검사 다중 수치 분해기(축약 표기 보정), 구성 항목별 분류 후 최댓값 집계고민 (기술 선택 이유)
평가 지표
완료 조건