使用生成对抗网络学习将文本编码为人类可读摘要
本文提出了一种针对抽象文本摘要的对抗性过程,在其中同时训练了生成模型和判别模型,并使用增强学习构建了生成器,该生成器可以将原始文本作为输入并预测抽象摘要。我们还构建了一个判别器来区分生成的摘要和真实值。经过广泛的实验证明,我们的模型在 CNN / Daily Mail 数据集上达到了具有竞争力的 ROUGE 分数。从质量上看,我们证明了我们的模型能够生成更多抽象、易读和多样化的摘要。
Nov, 2017
本文提出一种基于神经网络的端到端模型,实现了零样本抽象文本摘要,并基于 ROCStories 数据集引入了基准任务 ROCSumm。模型 SummAE 由去噪自编码器构成,通过将句子和段落嵌入到一个共同的空间中来生成段落的摘要。实验表明该模型可以比抽取式文本摘要技术更好地进行抽象文本摘要。
Oct, 2019
本研究通过加入噪声的方式进行了一个摘要任务来训练去噪自编码器从而实现了在不需要配对的语料库的情况下进行句子压缩。使用标准文本摘要数据集的人类评估表明,我们的模型与基于监督学习的语法正确性和意义保留基准相当,不需要目标数据,我们的无监督模型已经学会生成不完美但合理可读的句子摘要。
Sep, 2018
本篇论文中,采用了 GRU-based encoder 和 Bahdanau attention mechanism 对英语文本进行了自动摘要,使用 News-summary 数据集进行训练,其输出表现优异,可以用作报纸头条。
Feb, 2023
本研究针对社交媒体长且嘈杂的内容难以准确表达的问题,使用自编码器协助训练 Seq2Seq 模型,通过监督源内容与摘要的表征学习,实现抽象文本摘要生成并在基准数据集上取得了最先进的性能。
May, 2018
本研究初步探讨一种新的方法,利用最大边际相关性方法从多文档输入中选择代表性句子,并利用抽象的编码器 - 解码器模型将不同的句子融合成概括性摘要。该适应方法自身鲁棒性良好且不需要训练数据。与自动指标和人工评估员评估的最先进的抽取和抽象方法相比,我们的系统表现出色。
Aug, 2018
该研究提出了一种新的解码器,通过条件调整文本和文档的潜在主题来生成摘要,使用 LDA 等主题模型揭示了更多的全局语义信息,使解码器能够访问文本语料库级别的词共现统计信息,实验表明,与现有模型相比,该方法能显著提高 ROUGE 分数。
Aug, 2019
提出了一种基于序列到序列编码器 - 解码器模型并配备深层递归生成解码器的抽象文本摘要框架,通过利用循环潜在随机模型来学习目标摘要中隐含的潜在结构信息以提高摘要质量;同时应用神经变分推断来解决循环潜在变量的不可解后验推断问题,在生成潜在变量和判别性确定状态的基础上生成抽象摘要,实验结果表明,该方法优于现有最先进的方法。
Aug, 2017