如何找到强的摘要连贯性度量？用于摘要连贯性度量评估的工具箱和比较研究

Sep, 2022

如何找到强的摘要连贯性度量？用于摘要连贯性度量评估的工具箱和比较研究

How to Find Strong Summary Coherence Measures? A Toolbox and a Comparative Study for Summary Coherence Measure Evaluation

HTML

PDF

Julius Steen, Katja Markert

TL;DR本文介绍了自动评估摘要连贯性的意义，通过介绍不同的模型来建立摘要连贯性，并且引入了两种新的分析度量，即内部系统相关性和偏差矩阵，利用它们可以识别出一些偏见，并提供对系统级混淆的鲁棒性。虽然目前可用的自动连贯度量不能对所有评价指标的系统摘要分配可靠的连贯度得分，但是大型自然语言模型在自我监督任务上进行微调，表现出良好的结果，只要微调考虑到它们需要跨不同的摘要长度进行泛化即可。

Abstract

Automatically evaluating the coherence of summaries is of great significance both to enable cost-efficient summarizer evaluation and as a tool for improving coherence by selecting high-scoring candidate summaries. While many different approaches have been suggested to model summary coherence, they are often evaluated using disparate datasets and metrics. Thi

发现论文，激发创造

重新思考连贯性建模：综合任务 vs 下游任务

针对连贯性模型在开发新模型上的进展，我们发现它们在开发所面向的下游应用程序的评估方面往往被忽视。通过对多种传统和神经连贯性模型在合成句子排序任务的表现和下游应用中连贯性评估、机器翻译和摘要以及检索型对话系统的下一句话预测的性能进行实验，我们发现这些合成任务往往不能代表下游应用程序的性能，这说明需要探索备选的训练和评估方法。

Apr, 2020

如何评估摘要生成器：手动语言质量评估的研究设计和统计分析

通过对最近总结系统论文的调查，我们发现，在如何进行这样的评估研究方面存在很少的一致性。我们进行了两个评估实验来比较 Likert 类型和排名注释，并展示了评估方法的最佳选择可能因一个方面与另一个方面不同。使用我们的评估实验，我们展示了注释者的总数对研究功率有很强的影响，而目前的统计分析方法在把一个注释者判定多个摘要时会夸大Ⅰ类错误率高达8倍。此外，我们强调，为了进行系统比较，当前的实践是在一个固定的研究预算中引出多个判断，这会导致注释功率和可靠性较弱。

Jan, 2021

冰山之尖外：文本分类器的连贯性评估

通过一种新的预测一致性评估框架来评估大规模预训练语言模型的能力，该框架可以快速、有效地提供对机器预测一致性的见解。

Sep, 2021

SNaC: 叙述摘要的连贯性错误检测

该研究提出了一种新的评估框架SNaC，以解决长文本摘要中缺乏合适的评估方法的问题，并开发了一种数据标注方法，以收集6.6k个句子的故事连贯性注释。此外，研究人员展示了所收集的注释可以训练一个强大的分类器，用于自动定位生成摘要中的连贯性错误，并且可以支持未来对长文档摘要和连贯性评估的更好的建模和纠错。

May, 2022

自动摘要中冗余与局部连贯性之间的权衡

使用心理语言学理论，我们在提取式摘要中实现了对不重复且连贯的元素进行排名。这个系统可以控制信息检索量的预算，并通过实验证明在处理冗余文档时提供了更少冗余的摘要。

May, 2022

多任务学习增强提取式摘要的连贯性

提出了一种多任务学习架构，用于基于从文本中提取摘要，其中包含摘要器和连贯判别器模块，通过预训练的转换模型（基于模型）和转换矩阵（MAT-based）将句子表示合并，实现了可微分训练，并以此最大化了连贯判别器的连贯度分数，并通过人工评估证实了我们方法提高了从原始文章位置开始提取的连续句子的比例以及有效保留了其他自动评估指标。

May, 2023

自动一致性评估的新型计算和建模基础

该论文提出了一种正式和计算的口头表达的一致性的设置和评估方法，该方法通过联合训练多种任务的模型，在评估一致性的各个任务上表现出更好的性能，为大规模自动评估一致性提供了坚实的基础。

Oct, 2023

CoheSentia：生成文本中增量与整体一致性评估的新型基准

自然语言处理中自动生成文本的一致性评估和分析的新基准，旨在发展更可靠的一致性评估方法。

Oct, 2023

BBScore：一种基于布朗桥的评估文本连贯性的度量方法

本文介绍了一种新颖的布朗桥连贯度量指标(BBScore)，它能够评估文本的连贯性，不仅能在局部上测量文本连贯性，还能在整体上测量文本连贯性，同时避免了端到端模型训练的需要。该指标在与附加的简单分类组件结合时，展示出与最先进技术相当的表现水平，并在标准人工辨别任务中成功区分了由大型语言模型和人类撰写的文档。此外，我们还展示了这种方法在检测不同大型语言模型的撰写风格方面的效果，凸显了它的潜在泛化能力。

Dec, 2023

提高萃取式摘要的连贯性：数据集与长文本语言模型的实验

通过使用人工标注的数据集和自然语言用户反馈，对大型语言模型进行有监督微调，以增强其生成的摘要的连贯性，从而改进提取式摘要的一致性。

Jul, 2024