用潜在词袋生成释义

Jan, 2020

Paraphrase Generation with Latent Bag of Words

Yao Fu, Yansong Feng, John P. Cunningham

TL;DR本文提出一种基于离散词袋模型的转述生成方法，使用 Gumbel Top-K 重参数化技术，实现对目标词袋的不可导取样，提高了解码器的性能，同时，该方法的可解释性得到了验证。

Abstract

paraphrase generation is a longstanding important problem in natural language processing. In addition, recent progress in deep generative models has shown promising results on discrete latent variables for text g

paraphrase generation deep generative models latent bag of words gumbel top-k reparameterization interpretability

发现论文，激发创造

一个用于释义生成的深度生成框架

本篇论文研究了一种使用深度生成模型（VAE）与序列到序列模型（LSTM）相结合的方法来自动生成给定句子的同义句，相对于现有方法具有更好的性能和简洁的模块化结构。

Sep, 2017

基于潜变量 PCFG 的语义分析生成改写

为了弥合自然语言问题和知识库之间的词汇句法差距，本文提出了一种基于概率上下文无关语法抽样生成语义解析问题的语法模型，实现了自然语言问题向知识库查询的转换，提高了语义解析性能。

Jan, 2016

从释义学习概率句子表示

本文定义了能够为句子产生分布的概率模型，最佳表现的模型将每个单词视为线性转换算子应用于多变量高斯分布，并通过从定义的模型中进行训练，演示了实现句子特定性的自然方式。虽然我们的模型是整体最佳表现的，但通过句子向量的范数表示来表示句子的特异性的简单架构也能够表现句子的特异性。质性分析表明，我们的概率模型捕获了句子涵盖并提供了分析单词特异性和精确性的方法。

May, 2020

半监督近义复述生成的深层潜变量模型

研究利用深度潜在变量模型进行半监督任务，提出了 VSAR 和 DDL 两个模型，组合使用可提高性能，在已知文本对的情况下使用 DDL+VSAR 进行半监督学习，使用提出的权重初始化方法解决冷启动问题，经实验验证，该模型在数据不完整的情况下具有很好的性能。

Jan, 2023

语言作为潜变量：离散生成模型用于句子压缩

通过深度生成模型进行文本压缩，利用离散语言模型分布作为文档的潜在表示，生成模型引入离散语言模型的概念，通过变分自编码器进行推断，本研究在大量监督数据训练的情况下，得出抽象和提取式压缩的最新成果，并探索半监督压缩场景。

Sep, 2016

文本处理的神经变分推断

通过引入一个通用变分推断框架来构建生成式和条件文本模型的变分推断网络，我们验证了该框架在生成式文档建模和监督式问题回答两个不同的文本建模应用中的有效性。

Nov, 2015

$ extit {latent}$-GLAT：关注潜在变量的并行文本生成技术

本文提出了一种使用离散潜在变量和课程学习技术的平行文本生成方法，不需要使用自回归模型训练即可解决数据集中的多模态问题，并在实验中取得优秀的表现，进一步拓宽了平行解码范式的应用场景。

Apr, 2022

基于 N-gram 的文本低维度表示方法用于文档分类

本文提出了一种使用 n-grams 的 BOW 模型，通过调用 Skip-gram 模型快速获得单词向量表示并将其平均以获得 n-grams 的表征，从而在低维度空间中为所有 n-grams 维护了相同的语义信息，使用 K-means 聚类将语义概念分组以大大减少特征数量，最终展示了在情感分类任务中胜过 LSA 和 LDA，与传统的 BOW 模型相比，具有更少的特征但类似的结果。

Dec, 2014

通过可控潜在扩散实现同义重述生成的强制执行

本文提出一种名为 LDP 的新型模型，即 extit {L} atent extit {D} iffusion extit {P} araphraser，用于生成改写句，通过建模可控的扩散过程，并在学习到的潜在空间中实现了更高的生成效率和改写质量，它仅使用输入片段以确保改写语义，并不需要外部特征，在实验中显示 LDP 相较于基线方法，实现了改进和多样的改写生成，并对其他类似文本生成和领域适应的任务也具有帮助。

Apr, 2024

通过查询分布式词表示生成词语以进行释义生成

本文提出一种基于编码器 - 解码器框架的新模型 Word Embedding Attention Network (WEAN)，通过查询分布式词表示（即神经词嵌入）来生成单词，以捕获相应单词的含义，实验结果表明，该模型在两个英语文本简化数据集上的 BLEU 分数分别为 6.3 和 5.5，在一个中文摘要数据集上的 ROUGE-2 F1 分数为 5.7，并在这三个基准数据集中取得了最优表现。

Mar, 2018