coreference resolution metrics

2021. 12. 27. 20:34nlp&deep learning 개념

‘FantasyCoref’의 annotation과 fine tuning 실험 과정에서 MUC, BCUB, CEAF를 평균낸 f1-score로 coreference resolution의 성능을 측정했다. 이 메트릭들에 대해 공부한 내용을 정리한다. 이 논문을 참고했다.

ground truth가 다음과 같다고 하자. (숫자 1, 2, 3 ..은 각각 멘션을 의미)

  • entity 1 : [1, 2, 3, 4, 5]
  • entity 2 : [6, 7]
  • entity 3 : [8, 9, A, B, C]

그리고 추론 결과가 system response C 또는 system response A와 같다고 하자.

  • system response C
    • entityA : [1, 2, 3, 4, 5, 6, 7, 8, 9, A, B, C]
  • system response A
    • entity 가 : [1, 2, 3, 4, 5]
    • entity 나 : [6, 7, 8, 9, A, B, C]

세 가지 메트릭에 따른 계산 결과는 위의 그림과 같다.

  • (system response C) MUC는 정답의 기준을 연결된 멘션 링크 단위로 본다. 즉 (1, 2), (2, 3), (4, 5), (6, 7), (8, 9), (9, A), (A, B), (B, C)가 정답이 된다.
  • (system response C) BCUB은 정답의 기준을 엔티티 단위로 본다. 각 엔티티 별로 몇 개의 멘션을 맞혔는지를 살핀다.
    • recall을 계산하면, entity 1에 대해서는 [1, 2, 3, 4, 5]가 같이 묶여야 하는데 [1, 2, 3, 4, 5, 6, 7, 8, 9, A, B, C]에서는 [1, 2, 3, 4, 5]가 묶여있으므로 5개 중 5개를 맞혔다.
    • entity 2와 entity 3에 대해서도 2/2, 5/5가 계산된다.
  • (system response A)CEAF는 멘션을 기준으로 본다. CEAF는 system response A와 비교한다.
    • truth 멘션 묶음(=엔티티)과 가장 겹치는 것이 많은 reponse 멘션 묶음(=엔티티)를 정렬한다.
    • 이 경우 truth의 entity 1인 [1, 2, 3, 4, 5]는 system의 entity 가인 [1, 2, 3, 4, 5]와 정렬되고, truth의 entity 3인 [8, 9, A, B, C]는 system의 엔티티 나인 [6, 7, 8, 9, A, B, C]와 정렬된다.
    • entity 2인 [6, 7]는 매칭되는 것이 없어서 고려되지 않는다.
    • 정렬한 다음에는 아래의 수식에 따라 계산된다.

 

반응형