Nov, 2024

IdentifyMe:一项具有挑战性的长文本提及解析基准

TL;DR本研究针对传统输出格式和评估指标无法充分捕捉大规模语言模型(LLM)在共指解析中的参照理解这一问题,提出了新的基准IdentifyMe,该基准采用多项选择题形式并包含长篇叙述。通过提供不同类型的提及和相应的实体,我们细致评估了模型性能,并发现开放模型与封闭模型间存在显著绩效差距,尤其是在解析人称代词时表现尤为困难。