一种用于文档压缩的噪声信道模型
本文提出了一种基于联合提取和句法压缩的神经模型用于单文档摘要,该模型选择文档中的句子,通过句法分析识别可能的压缩,并用神经模型评分这些压缩以生成最终的摘要,实验结果表明,该模型在 ROUGE 评估中表现良好,能够达到与最先进系统相当的性能,并且其输出一般保持语法正确。
Feb, 2019
本文介绍了一种基于嘈杂信道模型的自动句子简化的简单重新排名方法,该方法综合考虑了简单句子产生复杂语句的概率以及该简单文本本身的概率,并在三个不同的英语数据集中表现出优越性能,应用嘈杂信道模型可以为 ATS 系统添加附加信息,在控制其重要方面方面具有重要作用,缓解了端到端神经 seq2seq 生成模型的局限性。
Nov, 2022
本文提出了一个基于句子压缩技术的任务框架,通过基于解析树的一系列学习模型,设计一种创新的 Beam Search 解码器来高效地找到高概率压缩结果,将语言学动机和查询相关性融入压缩过程中,并在多项指标上显著优于最先进的系统,包括在 DUC 2006 和 2007 摘要任务中分别获得 ROUGE-2 指标上 8.0% 和 5.4% 的改进。
Jun, 2016
开发了一种基于抽象的总结框架,适用于多个异构文档,该框架独立于标记数据。 与现有的多文件总结方法不同,我们的框架处理讲述不同故事的文档,而不是同一主题的文档。 最后,我们基于 CNN / Daily Mail 和 NewsRoom 数据集构建了总共十二个数据集变体,其中每个文档组都包含大量且多样化的文档,以评估我们的模型与其他基线系统的性能。 我们的实验表明,我们的框架在这种更通用的情况下胜过了现有的最先进方法。
May, 2022
本文提出了一种判别模型,它将压缩和先行语限制结合起来,选择文本单元以生成单文档摘要,并在大语料库上学习权重。训练后,该系统在 ROUGE 和人类语言质量判断方面均优于其他已有工作。
Mar, 2016
提出了一种新的神经模型用于文本摘要,首先从文档中提取句子然后再压缩它们,达到了抽象方法所暴露出的难度和提取方法所缺乏的简洁性的平衡,且所提模型在 CNN/DailyMail 和 Newsroom 数据集上均取得了最先进的效果。
Apr, 2019
通过深度生成模型进行文本压缩,利用离散语言模型分布作为文档的潜在表示,生成模型引入离散语言模型的概念,通过变分自编码器进行推断,本研究在大量监督数据训练的情况下,得出抽象和提取式压缩的最新成果,并探索半监督压缩场景。
Sep, 2016
本研究通过加入噪声的方式进行了一个摘要任务来训练去噪自编码器从而实现了在不需要配对的语料库的情况下进行句子压缩。使用标准文本摘要数据集的人类评估表明,我们的模型与基于监督学习的语法正确性和意义保留基准相当,不需要目标数据,我们的无监督模型已经学会生成不完美但合理可读的句子摘要。
Sep, 2018
该论文提出了一种基于同步树替换语法的树到树转导方法,可以自然地捕捉结构不匹配。论文还介绍了在此框架中解码的算法,并展示了如何在大间隔框架内进行有区别性的训练,实验结果表明,该模型在句子压缩方面取得了显著的改进。
Jan, 2014
本文探讨了基于标准序列到序列模型的神经嘈杂信道建模方法,实验结果表明这种方法在四个语言对的翻译任务中表现优异,尤其在 WMT'17 的德英翻译任务中,其 BLEU 分数比直接模型高出 3.2 分。
Aug, 2019