Nov, 2023

对话摘要模型在自然出现的变化下的稳健性评估

TL;DR对话摘要任务涉及在保留最显著信息的同时对长对话进行总结。实际生活中的对话经常会出现自然发生的变化(例如,重复、犹豫),现有的对话摘要模型在此类对话上的性能下降。本研究系统地研究了此类变化对最先进的对话摘要模型的影响,使用公开可用数据集。为了模拟真实生活中的变化,我们引入了两种类型的扰动:以错误和语言变化更改单个话语的话语级扰动,以及添加非信息性交流(例如,重复、问候)的对话级扰动。我们沿着一致性、显著性和忠实度三个鲁棒性的维度进行分析,这些维度捕捉了摘要模型性能的不同方面。我们发现,输入变化会影响精调模型和指导模型,而后者更容易受到影响,特别是在对话级扰动方面。我们还通过人工评估验证了我们的发现。最后,我们研究了使用部分扰动数据对精调模型的鲁棒性是否可以提高,并观察到这种方法对于解决当前模型中的鲁棒性挑战不足,因此需要更彻底的研究来找到更好的解决方案。总体而言,我们的工作强调对话摘要中的鲁棒性挑战,并为未来的研究提供了见解。