引文文本生成之引文部分识别

Sep, 2023

Cited Text Spans for Citation Text Generation

Xiangci Li, Yi-Hui Lee, Jessica Ouyang

TL;DR基于引用文献的自动相关工作生成应当将输出结果与引用论文的内容相关联，以避免虚构产生了，然而由于科学文献的篇幅限制，现有的抽象方法只依赖于引用论文的摘要。我们证明了摘要并不总是产生引文时最适合的输入，这样训练出来的模型会出现虚构结果。相反，我们提出使用引用文本片段作为替代输入。由于手动标注引文文本片段非常耗时耗力，我们尝试了基于 ROUGE 的候选引文文本片段标注，并取得了足够强的性能，可以代替昂贵的人工标注，并提出了基于关键词的引文文本片段检索方法，使得生成以引用论文的全文为基础的引文文本成为可能也变得实际可行。

Abstract

automatic related work generation must ground their outputs to the content of the cited papers to avoid non-factual hallucinations, but due to the length of scientific documents, existing →

发现论文，激发创造

生成引文文本的上下文化处理

提出一种对引文文本生成任务的简单修改方法，将生成目标扩展到整个上下文窗口，包括目标引文，实验结果表明，这种训练方式受到人类读者的青睐，并使生成模型能够利用关于讨论主题和立场的上下文线索。

Feb, 2024

可控引文文本生成

提供了可控的引文生成系统，使用大型语料库中引文句子的属性作为训练的输入源，并开发了属性建议模块来推断引文意图和建议相关关键词和句子，使用户更加掌控生成的引文，与没有属性意识的引文生成模型相比，在 ROUGE 和人类评估中性能更好。

Nov, 2022

科学论文的 Citance - 上下文总结

提出一种新的上下文化摘要方法，该方法可以根据含有引用文献的句子（称为 “引文”）生成信息丰富的摘要，概述了引文相关引用位置的文献内容，该方法提取和建模论文的引文，检索相关的引用文献段落，并生成针对每个引文的抽象摘要。

Nov, 2023

增强语境的语言模型用于生成多篇论文引用

基于大型语言模型的引文生成方法，旨在解决单段落引文生成的挑战，研究通过整合多个目标论文与单个源论文，生成包含多个句子引文文本的连贯段落。同时，通过将目标论文的知识图谱整合到生成引文文本的提示中实现了更好的性能，这一研究揭示了利用大型语言模型进行引文生成的潜力，为探索科学文档之间的复杂连接打开了一个引人注目的途径。

Apr, 2024

自动文本摘要技术的综合综述：方法、数据、评估和编码

本文综述了自动文本摘要的研究现状及其评估方法，使用引用文献的方法考察各种摘要生成机制，同时对可用于摘要任务的数据集进行了广泛的回顾，并在 CNN 语料库数据集上进行了抽取和生成方法的实证研究。

Jan, 2023

KG-CTG：基于知识图谱引导的大型语言模型的引文生成

本篇论文介绍了一个基于大型语言模型的引文生成任务的框架，并通过比较研究展示了将知识图谱关系纳入模型输入以提高其表现的结果。

Apr, 2024

抽象文本摘要的多因素校正

本论文提出了一种名为 Span-Fact 的技术，通过单一或多重遮盖策略，利用问题解答模型从系统生成的摘要中选择语义上一致且保留形式结构的实体，从而提高了系统生成的摘要的事实一致性和质量。

Oct, 2020

评估抽象文本摘要的事实一致性

该研究提出了一种弱监督、基于模型的方法来验证摘要的事实一致性，并鉴别来源文献和生成的摘要之间的冲突。

Oct, 2019

Twitter 上声明段落的自动识别：事实检查者的赋能

本文提出了 Claim Span Identification (CSI) 任务并引入了名为 CURT 的大规模 Twitter 语料库，通过基于 RoBERTa 的适配器 DABERTa 进行实验来对其数据进行基准测试，并提供了细致的误差分析和消融研究来验证该模型的性能，并提供了全面的跨度注释指南以供公共使用。

Oct, 2022

机器翻译人类评估的有效性改进探讨

本研究探讨了一种简单的降低标注成本的方法，即采用分层抽样和控制变量等技术，结合文档成员身份信息和自动评估指标，从而在固定标注预算下获得更高的准确性。在测试集上，相比于纯随机抽样，平均误差降低了高达 20%。该技术易于实现且适用于类似结构的问题。

Apr, 2022