提高萃取式摘要的连贯性:数据集与长文本语言模型的实验
该研究旨在开发一种在多文档环境中的提取式摘要生成器,使用基于排名的句子选择方法以及连续向量表示和关键短语,并提出了一种模型来解决摘要连贯性问题,以提高可读性。实验结果表明,在信息量和连贯性方面,该方法相对于现有方法有了显著的改进。
Jun, 2017
本文提出了一种名为RNES的增强型神经汇总模型,在使用无标签数据的情况下,通过机器学习的方式训练该模型以优化汇总的连贯性和信息重要性,并通过实验证明了 RNES 的性能优于现有的基准模型,达到了 CNN/Daily Mail 数据集的最新性能。
Apr, 2018
通过语义文本匹配任务范式,本论文提出了一种新的神经抽取式摘要系统构建方法。经过与原有抽取式摘要方法数据集的实验对比,该方法取得了更好的抽取结果,并通过对CNN / DailyMail数据集的实验,创造了44.41的新高水平。我们相信,这种基于匹配的摘要框架的潜力还未完全被利用。
Apr, 2020
使用心理语言学理论,我们在提取式摘要中实现了对不重复且连贯的元素进行排名。这个系统可以控制信息检索量的预算,并通过实验证明在处理冗余文档时提供了更少冗余的摘要。
May, 2022
本论文通过定义五个宽泛的不忠实问题类型(包括和超越非蕴涵)以及其他误导信息,论证了导致摘要不忠实的核心问题主要出现在extractive summarization中的指代和话语上,提出了新的检测误差的方法ExtEval,并指出现存的五大检测方法和人类判断较差,调查结果显示15个多样的提取系统中,33%的摘要存在至少一个不忠实问题,旨在提高外部总结的还原度并解决其问题
Sep, 2022
本文介绍了自动评估摘要连贯性的意义,通过介绍不同的模型来建立摘要连贯性,并且引入了两种新的分析度量,即内部系统相关性和偏差矩阵,利用它们可以识别出一些偏见,并提供对系统级混淆的鲁棒性。虽然目前可用的自动连贯度量不能对所有评价指标的系统摘要分配可靠的连贯度得分,但是大型自然语言模型在自我监督任务上进行微调,表现出良好的结果,只要微调考虑到它们需要跨不同的摘要长度进行泛化即可。
Sep, 2022
提出了一种多任务学习架构,用于基于从文本中提取摘要,其中包含摘要器和连贯判别器模块,通过预训练的转换模型(基于模型)和转换矩阵(MAT-based)将句子表示合并,实现了可微分训练,并以此最大化了连贯判别器的连贯度分数,并通过人工评估证实了我们方法提高了从原始文章位置开始提取的连续句子的比例以及有效保留了其他自动评估指标。
May, 2023
本研究提出一个多维理解摘要的基准测试,并在其上比较了多种模型的性能,发现中等规模的微调模型在多个任务上始终优于更大的几次提示语言模型。同时发现,对于某些任务,训练数据的数量比其来源领域更重要,而对于其他任务,尽管数据量有限,但特定领域的数据更为有益。
May, 2023
通过两种工作流程 (层级合并、递增更新) 实现基于 LLM 的书籍摘要器的连贯性研究,发现 LLM 会出现八种常见的连贯性错误,并提出了一个自动评估指标 BooookScore,与人工标注结果一致,可用于系统评估其他关键参数的影响,同时节省了人工评估成本。
Oct, 2023
这项研究通过利用投票算法,提出了一种新的框架LaMSUM,通过大型语言模型生成用户生成的文本的摘要,结果显示LaMSUM优于现有的提取式摘要方法,同时试图解释语言模型生成的摘要产生的原因。
Jun, 2024