coreference resolution metrics

coreference resolution metrics

2021. 12. 27. 20:34ㆍnlp&deep learning 개념

‘FantasyCoref’의 annotation과 fine tuning 실험 과정에서 MUC, BCUB, CEAF를 평균낸 f1-score로 coreference resolution의 성능을 측정했다. 이 메트릭들에 대해 공부한 내용을 정리한다. 이 논문을 참고했다.

ground truth가 다음과 같다고 하자. (숫자 1, 2, 3 ..은 각각 멘션을 의미)

그리고 추론 결과가 system response C 또는 system response A와 같다고 하자.

system response C
- entityA : [1, 2, 3, 4, 5, 6, 7, 8, 9, A, B, C]
system response A
- entity 가 : [1, 2, 3, 4, 5]
- entity 나 : [6, 7, 8, 9, A, B, C]

세 가지 메트릭에 따른 계산 결과는 위의 그림과 같다.

(system response C) MUC는 정답의 기준을 연결된 멘션 링크 단위로 본다. 즉 (1, 2), (2, 3), (4, 5), (6, 7), (8, 9), (9, A), (A, B), (B, C)가 정답이 된다.
(system response C) BCUB은 정답의 기준을 엔티티 단위로 본다. 각 엔티티 별로 몇 개의 멘션을 맞혔는지를 살핀다.
- recall을 계산하면, entity 1에 대해서는 [1, 2, 3, 4, 5]가 같이 묶여야 하는데 [1, 2, 3, 4, 5, 6, 7, 8, 9, A, B, C]에서는 [1, 2, 3, 4, 5]가 묶여있으므로 5개 중 5개를 맞혔다.
- entity 2와 entity 3에 대해서도 2/2, 5/5가 계산된다.
(system response A)CEAF는 멘션을 기준으로 본다. CEAF는 system response A와 비교한다.
- truth 멘션 묶음(=엔티티)과 가장 겹치는 것이 많은 reponse 멘션 묶음(=엔티티)를 정렬한다.
- 이 경우 truth의 entity 1인 [1, 2, 3, 4, 5]는 system의 entity 가인 [1, 2, 3, 4, 5]와 정렬되고, truth의 entity 3인 [8, 9, A, B, C]는 system의 엔티티 나인 [6, 7, 8, 9, A, B, C]와 정렬된다.
- entity 2인 [6, 7]는 매칭되는 것이 없어서 고려되지 않는다.
- 정렬한 다음에는 아래의 수식에 따라 계산된다.

숨로그