CORWA: 一个基于引用关系的相关工作注释数据集
该论文介绍了 OARelatedWork,这是第一个大规模的多文档摘要数据集,用于相关工作生成,包含整个相关工作部分和引用论文的全文。该数据集包括 94450 篇论文和 5824689 篇独特引用的论文。它旨在自动生成相关工作,将该领域从仅从摘要生成相关工作部分的抽象方法转向从所有可用内容生成整个相关工作部分的方式。当使用全文而不是摘要时,我们发现提取式摘要的 ROUGE-2 得分上限增加 217%。此外,我们展示了全文数据对于基线模型(如 naive、oracle、traditional 和基于 transformer 的模型)的好处。长文本输出(如相关工作部分)对于像 BERTScore 这样的自动评估指标会带来挑战,因为其输入长度有限。我们通过提出和评估使用 BERTScore 的元度量来解决这个问题。尽管操作的是较小的块,但我们证明这个元度量与人类判断具有相当的相关性,与原始的 BERTScore 相当。
May, 2024
本文提出了一种基于目标感知的抽象关联工作生成器(TAG),该生成器可以生成包含新句子的相关工作部分,通过目标中心化的注意机制,建模参考文献和目标论文之间的关系,并使用具有语义指示器的关键词短语考虑不同级别图的节点,在多级对比优化目标的指导下生成更具信息量的相关工作。通过在两个公共学者数据集上的广泛实验,表明所提出的模型在自动和定制化的人类评估方面比几个强基线模型都有实质性的改进。
May, 2022
通过分析引文图,我们评估了人工智能辅助学术写作,并发现 GPT-4 在支持人类用户的构思方面能够生成合理的粗粒度引文组合,但在没有人为干预的情况下无法进行详细的相关工作综合。因此,我们建议未来的写作助手工具不应独立撰写文本。
Feb, 2024
通过提取网页信息与知识图谱进行整合,本文研究通过整合自由文本中主题 - 关系 - 客体提取到的自由文本关系,并对接到目标知识图谱中相关关系以达到全球合一的目的,结果取得了可观的并显著优于基线的效果。
Jun, 2021
通过引入过滤算法和加权低秩适应策略(WoRA learning strategy)来识别构建数据集中的关键数据子集并进行轻量级微调,我们在基于文本的人员搜索任务中实现了高效的训练和检索性能。
Apr, 2024
S2ORC 是一个跨学科的大语料库,包括 81.1M 篇论文的元数据、摘要、文献引用等,并且结构化地附带了 8.1M 篇 OA 论文的全文和引文、图表等信息,可用于文本挖掘研究。
Nov, 2019
本文研究基于领域的社区问答,以 Stack Overflow 为例,将问题相关性任务作为一个四个互斥类别的多类分类问题进行建模,提供了一个具有超过 30 万对的领域特定数据集,采用神经网络架构和传统模型计算它们之间的相关性。
May, 2019