2021. 12. 26. 20:33ㆍ논문리뷰
‘FantasyCoref’ 페이퍼에서 Revealing the Myth of Higher-Order Inference in Coreference Resolution 에 제시된 모델을 사용하여 파인튜닝 실험을 진행하였다.
Abstract
This paper analyzes the impact of higher-order inference (HOI) on the task of coreference resolution. HOI has been adapted by almost all recent coreference resolution models without taking much investigation on its true effectiveness over representation learning. To make a comprehensive analysis, we implement an endto-end coreference system as well as four HOI approaches, attended antecedent, entity equalization, span clustering, and cluster merging, where the latter two are our original methods. We find that given a high-performing encoder such as SpanBERT, the impact of HOI is negative to marginal, providing a new perspective of HOI to this task. Our best model using cluster merging shows the Avg-F1 of 80.2 on the CoNLL 2012 shared task dataset in English.
Ⅰ. Approaches
2.1. End-to-End Coreference System (참고한 블로그)
- End-to-end Neural Coreference Resolution(Kenton Lee et al, 2017) 이전의 coreference resolution은 mention detection을 먼저 하고, 이 mention들에 대해서 clustering을 진행하는 두 가지 단계로 이루어졌다. Lee(2017)는 mention detection부터 clustering까지 한꺼번에 학습되는 end-to-end 방식의 coreference resolution 모델을 제안하였다.
- 각각의 span x에 대하여, x의 antecedents에 대한 분포(P(y))를 학습하는 방식이다.
- P(y)는 x와 x의 actecedents y 각각이 멘션일 확률, 둘이 antecedents의 관계를 가질 확률을 고려하여 결정된다.
- 먼저 bi-lstm을 통해 각 멘션의 임베딩을 구한다. g(x), g(y)를 구하는 것이다.
- mention score: sm(x)는 g(x)를 통해 멘션 x가 멘션일 확률을 구하는 것이다.
- antecedent score: sc(x, y)는 g(x)와 g(y) 및 메타 정보를 사용하여 y가 x의 antecedent일 확률을 구하는 것이다.
- coreference score: s(x, y)는 sm(x), sm(y), sc(x, y)를 사용하여 x,y가 멘션이면서 antecedent인 확률을 나타내며, 이를 사용하여 P(y)를 정의한다.
- coreference score를 실제 coreference 관계인지 여부와 비교하며 학습 진행
2.2 Span Refinement
- Lee(2017)의 end-to-end 모델은 두 쌍을 independent 하게 비교하기 때문에 coreference chain이 locally consistent 하지만 globally inconsistent한 문제가 발생할 수 있다.
- 각각의 멘션 쌍을 독립적으로 비교하는 경우, I와 you는 locally 연결되고, you와 all of you도 locally 연결된다. 따라서 I, you, all of you는 같은 클러스터로 묶인다.
- 하지만 전체 맥락을 고려한다면, I와 you가 같은 클러스터이고, all of you는 다른 클러스터로 분류되어야 한다. globally inconsistent한 문제가 발생하는 것이다. 만약 all of you를 판단할 때 you가 이전에 I와 연결되었다는 점을 반영한다면 이러한 문제를 완화할 수 있을 것이다.
- Higher-order coreference resolution with coarse-to-fine inference(Kenton Lee et al, 2018)는 HOI 방법을 도입하여 이 문제를 해결하고자 한다.
- HOI는 간단하게 말하자면, antecedent 관계인지 여부를 판단할 때 두 쌍만 보는 것이 아니라, antecedent 후보의 이전 antecedents 관계까지 함께 고려하여 결정하는 방법이다.
- document의 전체적인 맥락을 더 반영하여 coreference resolution을 진행하는 것이다.
- 수식으로 보자면, 멘션 x의 임베딩 벡터를 도출할 때, 멘션 x의 antecedents 정보를 반영하는 a 벡터를 추가하는 것이다. a 벡터를 어떻게 도출하는지에 따라 HOI 방법을 구분할 수 있다. f는 과거의 정보를 얼마나 반영할지를 정하는 게이트 역할을 한다.
- antecedents 정보를 추가해서 스팬 임베딩을 업데이트 하는 것을 span refinement라 하자.
- “Revealing the Myth of Higher-Order Inference in Coreference Resolution”은 HOI의 도입 목적에 동의하면서도, coreference resolution 성능의 향상이 bert, span bert와 같은 고성능 인코더의 도입 덕분인지 아니면 HOI 방법의 도입 덕분인지에 대한 면밀한 검증이 되지 않았다는 점을 지적한다. 그래서 기존의 HOI 방법론 2개(AA, EE)와 새롭게 제시한 HOI 방법론 2개(SC, CM)에 대한 실험을 진행하여 HOI의 성능 기여도에 대한 실험을 진행한다.
2.2.1 Attended Antecedent (AA)
- 스팬 x의 antecedents 후보들인 스팬 y 벡터들에 현재의 P(y) distribution을 곱해서 더한 값을 통해 a를 도출한다. antecedents의 정보를 반영해서 스팬 x의 representation을 업데이트 하는 것이다.
2.2.2 Entity Equalization (EE)
- Kantor and Globerson(2019)에서 제시한 방법이다. antecedents가 아니라 클러스터 기준으로 임베딩을 구해서, 현재 스팬 임베딩에 반영한다.
- P(y) 분포가 위의 표를 따르고 있다고 할 때, 두 번째 John의 임베딩은 클러스터 기준으로 (John1, he, John2)를 반영해야한다.
- 그러나 antecedents 정보만 반명하는 AA에 따르면 두 번째 John의 선행사인 John1과 자기 자신인 John2의 정보만 반영하게 된다.
- 클러스터 기준으로 반영하기 위해서는 soft clustering 방식을 사용하는데, 맨 위의 수식과 같이 a가 결정된다. 미분 가능한 식을 만들기 위함이다.
- Q는 멘션 i가 멘션 j를 시작으로 하는 클러스터에 속할 확률을 의미한다. e는 매 타임스텝마다 엔티티(클러스터)를 대표하는 임베딩이다.
- 클러스터 임베딩을 반영하여 a를 구한다.
2.2.3 Span Clustering (SC)
- EE와 달리 확률 사용한 soft clustering 방식을 사용하지 않고, 최종 결정된 cluster 기준으로 cluster 임베딩을 구한다.(미분 불가)
2.2.4 Cluster Merging (CM)
- 순차적으로 entity cluster를 늘리면서 반영하여 entity 임베딩 업데이트한다.
Ⅱ. Experiments and Results
- 최종 f1 스코어를 보면, spanbert만 사용할 때에 비해서 HOI 방식을 더했을 때 성능이 더 높아지는 것은 CM 뿐이다.
Ⅲ. Conclusion
- HOI 방법론이 최초의 도입 목적과 같은 효과를 내지 못하는 것처럼 보인다. 새로운 접근이 필요하다.
'논문리뷰' 카테고리의 다른 글
QA system 관련 논문 리뷰 (0) | 2021.12.28 |
---|---|
Detecting bursty terms in computer science research (0) | 2021.12.25 |
DKN: Deep Knowledge-Aware Network for News Recommendation (0) | 2021.12.24 |
Political Ideology Detection Using Recursive Neural Networks (0) | 2021.12.23 |
MIND: A Large-scale Dataset for News Recommendation (0) | 2021.12.22 |