Jan, 2022

多叙事语义重叠任务:评估和基准测试

TL;DR本文介绍了一个重要但相对未被探索的 NLP 任务,称为多叙事语义重叠(MNSO),它涉及生成多个替代叙事的语义重叠。我们使用在网上爬取的 2,925 个叙事对创建了一个基准数据集,并通过人工注释创建了 411 个不同的地面真实语义重叠,提出了一个新的精确度 - 召回率样式的评估指标 SEM-F1。实验结果表明,该指标与人类判断的相关性更高,而且相较于 ROUGE 指标,具有更高的人际一致性。