对话摘要的一袋技巧
对话摘要化是将原始对话压缩成涵盖重要信息的短版,用于减轻对话数据负载,本研究从多个领域(包括会议,聊天,电子邮件,客户服务和医疗对话)全面系统地调查了对话摘要化的现状和研究进展,包括可用于研究数据集的总览和两个排行榜,并提出了一些未来的研究方向,如忠实度、多模态、多领域和多语言对话摘要化。
Jul, 2021
本论文旨在通过引入对话行为,设计一种基于句子门控机制的神经摘要模型,以更好地模拟对话行为和摘要之间的关系,从而提高其在 AMI 会议语料库上的性能表现。实验结果表明,所提出的模型相对于现有的基线表现有很大改善,突显出对话行为所提供的交互信号的实用性。
Sep, 2018
本文探索了对话摘要的三种策略:扩展变压器模型、检索后摘要流水线模型和分层对话编码模型,并在三个长对话数据集(QMSum、MediaSum、SummScreen)上进行了实验。结果表明,检索后摘要流水线模型具有最佳性能,并说明强大的检索模型和基于外部摘要数据集的预训练可以进一步提高摘要质量。
Sep, 2021
提出了 DialogSum,一种大规模标注的对话摘要数据集,通过对该数据集使用最先进的神经摘要器进行经验分析,结果表明对话摘要中存在诸如口语术语、特殊话语结构、代词和省略、语用学和社会常识等独特挑战,需要特定的表示学习技术来更好地处理。
May, 2021
本文讨论对话摘要的 DialogSum Challenge 中四个团队使用自动和人工评估度量探索改进对话摘要性能的结果,并发现人工评估和自动评估之间存在巨大差距,需要更细致的评估方法。
Aug, 2022
本研究提出了一种多视角序列到序列模型,其通过提取来自不同视角的非结构化日常聊天中的会话结构来表示会话,然后利用多视角解码器来合并不同视角生成对话摘要,在大规模对话摘要语料库上的实验结果表明,本研究方法在自动评估和人类判断方面均明显优于之前的最新模型。
Oct, 2020
本文提出了一种方法,利用非对话摘要数据来增强对话摘要系统,通过转换文档摘要数据对来创建更适合对话摘要的训练数据,使其具有非对话数据集的良好特性,增强了在所有训练方案中的可信度。实验证明,利用非对话数据进行训练,可以显著提高摘要性能以及保持数据来源的准确性。
Oct, 2022
通过系统性地回顾 2019 年至 2024 年间发表的 1262 篇独特研究论文,本文总结了基于 Transformer 的英语对话抽象总结的研究,并涵盖了对话总结中的主要挑战和相应的技术,例如基于图的方法、额外的训练任务和计划策略。虽然一些挑战,如语言,已经取得了相当大的进展,但其他一些挑战,如理解、准确性和显著性,仍然困难,具有重要的研究机会。
Jun, 2024