May, 2024

OARelatedWork:一种来自开放获取资源的大规模相关工作段落全文数据集

TL;DR该论文介绍了 OARelatedWork,这是第一个大规模的多文档摘要数据集,用于相关工作生成,包含整个相关工作部分和引用论文的全文。该数据集包括 94450 篇论文和 5824689 篇独特引用的论文。它旨在自动生成相关工作,将该领域从仅从摘要生成相关工作部分的抽象方法转向从所有可用内容生成整个相关工作部分的方式。当使用全文而不是摘要时,我们发现提取式摘要的 ROUGE-2 得分上限增加 217%。此外,我们展示了全文数据对于基线模型(如 naive、oracle、traditional 和基于 transformer 的模型)的好处。长文本输出(如相关工作部分)对于像 BERTScore 这样的自动评估指标会带来挑战,因为其输入长度有限。我们通过提出和评估使用 BERTScore 的元度量来解决这个问题。尽管操作的是较小的块,但我们证明这个元度量与人类判断具有相当的相关性,与原始的 BERTScore 相当。