带语义脚手架的抽象对话摘要
本文介绍一种使用预处理的深度语境化文本编码器 BERT 来改善自然语言任务,包括抽象概括,并提出一种自我监督的方法来弥补对话概括模型的缺陷。在共享的编码器 - 解码器架构上构建和微调抽象对话概括模型,并在最近引入的 SAMSum 语料库中经验性地评估,证明我们的方法在抽象概括中做出了改进。
Sep, 2022
本文针对抽象对话摘要的质量和粒度控制问题,提出了一种包含两个主要组成部分和阶段的模型,实现了基于伪标注疑问代词类别和基于组成句法分析提取关键词短语生成初步摘要,并通过自动确定或控制源文本中不同文本片段预测和突出显示给定对话的生成摘要句子数量。在最大的对话摘要语料库 SAMSum 上表现出优越性能,达到了 50.79 的 ROUGE-L 评分,并展示了竞争性高的人类评估结果和可控制的效果。
May, 2021
为了更好地总结对话内容,我们提出了一种基于主题感知结构的指针生成器模型,该模型在使用具有层次结构的主题信息进行适应的同时,在提取和生成方面展现了卓越的性能。
Oct, 2019
本研究介绍了 SAMSum 语料库,这是一个新的抽象对话摘要数据集,研究人员使用多个模型进行测试,并将其结果与新闻文章语料库的结果进行比较,结果显示与人类评估者的判断相反,模型生成的对话摘要具有更高的 ROUGE 分数,这表明需要使用专用模型和非标准质量度量的抽象对话摘要这一具有挑战性的任务,据我们所知,这是引入高质量聊天对话语料库的第一次尝试,并手动注释了抽象摘要,可供研究人员进行进一步研究。
Nov, 2019
该论文介绍了一种新型的多说话者对话摘要生成器,利用大规模的常识知识来促进对话理解和总结生成。实验表明我们的模型能够优化 SAMSum 数据集,并且也能够更好地适用于新领域的零样本实验。
Oct, 2020
通过系统性地回顾 2019 年至 2024 年间发表的 1262 篇独特研究论文,本文总结了基于 Transformer 的英语对话抽象总结的研究,并涵盖了对话总结中的主要挑战和相应的技术,例如基于图的方法、额外的训练任务和计划策略。虽然一些挑战,如语言,已经取得了相当大的进展,但其他一些挑战,如理解、准确性和显著性,仍然困难,具有重要的研究机会。
Jun, 2024
通过添加领域特定本体信息增强内容选择和摘要生成,我们的序列到序列抽象式摘要模型的应用于放射学报告数据集,能够显著优于当前最先进的方法,同时经过放射学家的人类评估,表明该方法生成的摘要不太可能省略重要细节,而且读起来依然具有可读性和准确性。
May, 2019
本文利用多句压缩图技术推动无监督抽象对话摘要的研究前沿,通过路径重新排列和主题分段方案提升算法可靠性,并在跨领域数据集上实现算法健壮性。我们还探讨了将深度学习与启发式系统相结合的方案,以提高算法性能。我们开源我们的代码,为未来无监督对话摘要的研究提供了一个强有力的、可重复的基线。
May, 2022
提出了 DialogSum,一种大规模标注的对话摘要数据集,通过对该数据集使用最先进的神经摘要器进行经验分析,结果表明对话摘要中存在诸如口语术语、特殊话语结构、代词和省略、语用学和社会常识等独特挑战,需要特定的表示学习技术来更好地处理。
May, 2021