EMNLPSep, 2020

终止无效比较:端到端关系抽取

TL;DR本文针对目前关系提取领域中性能比较不可靠的问题,提出了一些无效比较的模式,并进行了实证研究来量化最常见错误对最终关系提取性能的影响,揭示了 BERT 和 span-level NER 的不足。本文强调在评估环节中应统一评估设置和数据集统计,并呼吁在 end-to-end 关系提取领域建立公认的评估标准。