文本生成的深度潜在变量模型
提出一种基于神经网络的生成架构,通过潜在的随机变量来建模具有复杂依赖关系的分层结构顺序数据,将该模型应用于对话响应生成任务并与最近的神经网络架构进行比较,实验证明该模型可以提高生成长输出的准确性并维持上下文信息。
May, 2016
本文介绍一种潜变量模型,用于文本匹配,通过联合优化生成目标和判别目标来推断句子表示,采用反卷积网络作为序列解码器以缓解潜变量模型中的典型优化挑战,提供更多语义信息和更好的泛化性能;在无监督方式下训练的模型比基于 LSTM 的解码器具有更强的实证预测性能,参数更少,训练速度更快;进一步应用于文本序列匹配问题,在半监督设置下,所提出的模型显著优于几个强的句子编码基线。
Sep, 2017
探讨使用潜变量模型实现神经机器翻译中的条件文本生成性能,通过引入连续潜变量来增强编码器 - 解码器 NMT 范例,利用 Inference Network 中的共同关注机制来扩展该模型,使用不同方法试图缓解后验崩溃问题,并且探究学习潜空间的能力,该模型能有效地优化翻译模型。
Dec, 2018
本文研究了多层结构的变分自编码器模型,采用层级随机层和多层解码器结构生成更具信息的潜变量编码,同时生成中间的句子表示作为高层计划向量,实验结果表明多层结构能够生成更加连贯且不重复的长文本,并进一步缓解了后验坍缩问题。
Feb, 2019
通过深度生成模型进行文本压缩,利用离散语言模型分布作为文档的潜在表示,生成模型引入离散语言模型的概念,通过变分自编码器进行推断,本研究在大量监督数据训练的情况下,得出抽象和提取式压缩的最新成果,并探索半监督压缩场景。
Sep, 2016
本文提出了一种基于采样的变分分布表示方法,用于自然语言生成中 deep latent variable models,并通过最大化互信息的正则化来解决 posterior collapse 问题,进一步发展了 VAE,并在多个文本生成场景中证明了其有效性和通用性。
Aug, 2019