CORWA: 一个基于引用关系的相关工作注释数据集

ACLMay, 2022

CORWA: 一个基于引用关系的相关工作注释数据集

CORWA: A Citation-Oriented Related Work Annotation Dataset

Xiangci Li, Biswadip Mandal, Jessica Ouyang

TL;DR本文介绍了一个基于语言学的相关工作自动生成框架，包括引入一个标注数据集 CORWA 和训练一个基于此标注数据集的强基线模型，并建议了一种新颖的循环抽象与人工参与的相关工作生成框架。

Abstract

academic research is an exploratory activity to discover new solutions to problems. By this nature, academic research works perform literature reviews to distinguish their novelties from prior work. In

academic research literature review related work generation natural language processing corwa dataset

发现论文，激发创造

相关工作和引文生成：一项调研

文献综述、相关工作生成、自然语言处理、NLP 模型、挑战

Apr, 2024

自动生成相关工作：一项元研究

此篇综述介绍了如何通过自然语言处理实现学术研究中 “Related Work” 部分的自动生成和如何将相关研究进行比较和未来展望。

Jan, 2022

OARelatedWork：一种来自开放获取资源的大规模相关工作段落全文数据集

该论文介绍了 OARelatedWork，这是第一个大规模的多文档摘要数据集，用于相关工作生成，包含整个相关工作部分和引用论文的全文。该数据集包括 94450 篇论文和 5824689 篇独特引用的论文。它旨在自动生成相关工作，将该领域从仅从摘要生成相关工作部分的抽象方法转向从所有可用内容生成整个相关工作部分的方式。当使用全文而不是摘要时，我们发现提取式摘要的 ROUGE-2 得分上限增加 217%。此外，我们展示了全文数据对于基线模型（如 naive、oracle、traditional 和基于 transformer 的模型）的好处。长文本输出（如相关工作部分）对于像 BERTScore 这样的自动评估指标会带来挑战，因为其输入长度有限。我们通过提出和评估使用 BERTScore 的元度量来解决这个问题。尽管操作的是较小的块，但我们证明这个元度量与人类判断具有相当的相关性，与原始的 BERTScore 相当。

May, 2024

利用对比学习进行面向目标的抽象相关工作生成

本文提出了一种基于目标感知的抽象关联工作生成器（TAG），该生成器可以生成包含新句子的相关工作部分，通过目标中心化的注意机制，建模参考文献和目标论文之间的关系，并使用具有语义指示器的关键词短语考虑不同级别图的节点，在多级对比优化目标的指导下生成更具信息量的相关工作。通过在两个公共学者数据集上的广泛实验，表明所提出的模型在自动和定制化的人类评估方面比几个强基线模型都有实质性的改进。

May, 2022

GPT 生成文本中对知识的浅层综合：自动关联工作组成的案例研究

通过分析引文图，我们评估了人工智能辅助学术写作，并发现 GPT-4 在支持人类用户的构思方面能够生成合理的粗粒度引文组合，但在没有人为干预的情况下无法进行详细的相关工作综合。因此，我们建议未来的写作助手工具不应独立撰写文本。

Feb, 2024

CoRI: 集体关系整合与数据增强用于开放信息抽取

通过提取网页信息与知识图谱进行整合，本文研究通过整合自由文本中主题 - 关系 - 客体提取到的自由文本关系，并对接到目标知识图谱中相关关系以达到全球合一的目的，结果取得了可观的并显著优于基线的效果。

Jun, 2021

抽象相关工作生成的因果干预

通过引入因果干预模块（CaM）识别文本生成过程中的因果关系，从而提高生成的相关作品的质量和连贯性。

May, 2023

从数据洪流到数据筛选：高效文本人物搜索的过滤 - 增加权重逻辑

通过引入过滤算法和加权低秩适应策略（WoRA learning strategy）来识别构建数据集中的关键数据子集并进行轻量级微调，我们在基于文本的人员搜索任务中实现了高效的训练和检索性能。

Apr, 2024

S2ORC: 语义学者开放研究语料库

S2ORC 是一个跨学科的大语料库，包括 81.1M 篇论文的元数据、摘要、文献引用等，并且结构化地附带了 8.1M 篇 OA 论文的全文和引文、图表等信息，可用于文本挖掘研究。

Nov, 2019

Stack Overflow 上的问题相关性：任务、数据集和基于语料库的模型

本文研究基于领域的社区问答，以 Stack Overflow 为例，将问题相关性任务作为一个四个互斥类别的多类分类问题进行建模，提供了一个具有超过 30 万对的领域特定数据集，采用神经网络架构和传统模型计算它们之间的相关性。

May, 2019