对话摘要模型在自然出现的变化下的稳健性评估

Nov, 2023

对话摘要模型在自然出现的变化下的稳健性评估

Evaluating Robustness of Dialogue Summarization Models in the Presence of Naturally Occurring Variations

Ankita Gupta, Chulaka Gunasekara, Hui Wan, Jatin Ganhotra, Sachindra Joshi...

TL;DR对话摘要任务涉及在保留最显著信息的同时对长对话进行总结。实际生活中的对话经常会出现自然发生的变化（例如，重复、犹豫），现有的对话摘要模型在此类对话上的性能下降。本研究系统地研究了此类变化对最先进的对话摘要模型的影响，使用公开可用数据集。为了模拟真实生活中的变化，我们引入了两种类型的扰动：以错误和语言变化更改单个话语的话语级扰动，以及添加非信息性交流（例如，重复、问候）的对话级扰动。我们沿着一致性、显著性和忠实度三个鲁棒性的维度进行分析，这些维度捕捉了摘要模型性能的不同方面。我们发现，输入变化会影响精调模型和指导模型，而后者更容易受到影响，特别是在对话级扰动方面。我们还通过人工评估验证了我们的发现。最后，我们研究了使用部分扰动数据对精调模型的鲁棒性是否可以提高，并观察到这种方法对于解决当前模型中的鲁棒性挑战不足，因此需要更彻底的研究来找到更好的解决方案。总体而言，我们的工作强调对话摘要中的鲁棒性挑战，并为未来的研究提供了见解。

Abstract

dialogue summarization task involves summarizing long conversations while preserving the most salient information. Real-life dialogues often involve naturally occurring variations (e.g., repetitions, hesitations)

dialogue summarization variations perturbations robustness fine-tuned models

发现论文，激发创造

面向任务对话的语言理解鲁棒性测试

本研究针对自然语言理解模型在实际对话系统的应用中容易出现的波动和变化问题，提出了一种模型无关的工具箱 LAUG，涵盖语言变体，语音特性和噪声扰动三个方面的四种数据增强方法，揭示了现有模型中的严重鲁棒性问题，提供了一种使用 LAUG 生成的增强数据集来促进语言理解测试鲁棒性的方法。

Dec, 2020

基于微调的抽象摘要模型的实体级事实可适应性

通过分析对知识冲突的鲁棒性，本文研究了基于微调的抽象概括模型，发现并引入了一种可控的反事实数据增广方法来增强事实适应性，并在两种预训练语言模型（PEGASUS 和 BART）以及两个微调数据集（XSum 和 CNN/DailyMail）上实验证明，该方法在实现原始数据集上的事实一致性的同时提高了事实适应性。

Feb, 2024

CONFIT：基于语言学对比微调的忠实对话摘要

通过 ConFiT 训练方法及一系列的模块化目标来改善抽象型对话摘要的事实准确性，最终生成的摘要数据质量得到了显著提高。

Dec, 2021

人在环节下的抽象式对话摘要

本文提出引入不同层次的人类反馈，结合增强学习以提高抽象对话摘要的质量。实验表明，该方法在人类判断方面优于监督式基线，并能提高摘要质量。

Dec, 2022

使用双重增益提高摘要系统的鲁棒性

本文旨在研究文本摘要模型对词级同义替换和噪声的鲁棒性，发现模型鲁棒性不足。为提高模型的鲁棒性，提出用语言模型生成对抗样本并在输入空间内使用这些样本多样化原始数据，同时在隐藏空间内进行流形混合操作以引入更多的编码器编码输出。测试结果表明，该方法得到了有效的改进。

Jun, 2023

对话摘要中忠实度的分析和评估

本文提出了一种系统评估对话摘要的方法，并通过人工分析发现现有模型中有超过 35% 生成的摘要与原始对话不符，其评估工具与样本数据可用于未来的研究。

Oct, 2022

文本摘要模型的训练动态

本文分析生成模型的训练动态，特别是聚焦于总结的方面，并研究了不同阶段的训练过程中模型学到的东西，通过简单的训练修正可以实现不同目标，比如提高事实性和提高抽象程度。

Oct, 2021

SWING: 对话摘要的覆盖率和准确性的平衡

研究利用自然语言推理（NLI）模型来提高对话摘要的覆盖率和忠实度，通过计算细粒度训练信号，产生内容在参考摘要中未被涵盖，并且区分生成的句子是与事实一致或不一致的，通过 DialogSum 和 SAMSum 数据集的实验证实该方法的有效性，并通过自动度量和人类评估进行验证，另外，评估三个不同维度的对话摘要，计算常用自动度量与人类判断之间的相关性，以提供有关最适合评估对话摘要的度量标准的见解。

Jan, 2023

评估基于任务的对话系统在口语交流中的鲁棒性：“你有多强大？

研究口语任务导向对话状态跟踪和基于知识的对话建模，提出使用已有数据集不足的问题，借助 n-best 语音识别假设，改善任务绩效，并说明现有模型在口语数据方面存在不足，研究结果呈现有利于基于语音的任务导向对话系统的基准测试数据集。

Sep, 2021

长对话摘要的探索研究：何有效、何下一步

本文探索了对话摘要的三种策略：扩展变压器模型、检索后摘要流水线模型和分层对话编码模型，并在三个长对话数据集（QMSum、MediaSum、SummScreen）上进行了实验。结果表明，检索后摘要流水线模型具有最佳性能，并说明强大的检索模型和基于外部摘要数据集的预训练可以进一步提高摘要质量。

Sep, 2021