coreference resolution metrics
‘FantasyCoref’의 annotation과 fine tuning 실험 과정에서 MUC, BCUB, CEAF를 평균낸 f1-score로 coreference resolution의 성능을 측정했다. 이 메트릭들에 대해 공부한 내용을 정리한다. 이 논문을 참고했다. ground truth가 다음과 같다고 하자. (숫자 1, 2, 3 ..은 각각 멘션을 의미) entity 1 : [1, 2, 3, 4, 5] entity 2 : [6, 7] entity 3 : [8, 9, A, B, C] 그리고 추론 결과가 system response C 또는 system response A와 같다고 하자. system response C entityA : [1, 2, 3, 4, 5, 6, 7, 8, 9, A, B, C]..
2021.12.27