- 离散与反向传播之间的桥梁:Through-Straight 及其拓展
本文提出 ReinMax 方法,通过集成 Heun's Method 来解决离散潜变量生成参数的梯度近似问题,该方法在结构化输出预测和无监督生成建模任务中均获得了比现有技术更好的结果,包括 ST 和 ST Gumbel-Softmax。
- 先学习可能性,再选择最佳方案:通过文本游戏分离语言中的一对多关系
利用离散潜在变量和知识蒸馏的方法,从多样的预训练数据集中捕捉了一系列不同的行为,并将这种多样性应用于学生模型中,显著提高了对话系统生成回复的准确性。
- ACL使用较少的监督学习可解释的潜在对话动作
本文介绍了一种用于解释任务对话建模的新型系统,基于离散潜变量表示对话行为。该模型基于变分循环神经网络,无需显式的语义信息。与以前的工作不同,我们的方法分别对系统和用户轮次进行建模,同时执行数据库查询建模,使得该模型适用于任务对话,同时生成易 - 自回归联合训练用于离散语音表示学习
通过生成模型和信息论的联合训练,实现了对离散语音表示的学习,发现该方法学习的语音表示与语音单元高度相关
- 离散潜变量的联合梯度估计器
该研究提出了一种基于重要性采样和统计耦合的派生估计器,将分类变量重新参数化作为二进制序列,并进行 Rao-Blackwellization,结果表明该方法在离散潜变量训练中具有最先进的性能。
- Rao-Blackwell 算法优化直通 Gumbel-Softmax 梯度估计器
本研究提出了一种对 Gumbel-Softmax estimator 进行 Rao-Blackwellization 的方法,可在不增加函数评估数量的情况下减少方差,从而降低均方误差,并在两种无监督潜变量模型中得到了实证验证。
- 通过稀疏性高效消除离散和结构化潜变量的影响
本文介绍了一种利用可微稀疏映射的参数化离散分布的训练策略,可在离散(分类或结构化)潜变量的情况下进行精确的边际化,避免了噪声梯度估计器或连续弛豫的需要,并在三个不同的潜变量建模应用场景取得了成功的结果。
- DisARM:二元潜变量反义梯度估算器
介绍了 ARM 估计量无法完全缓解的波动性问题,提出了 DisARM 估计量,通过从增广变量中积分,成功地减少了波动性,同时保持与 ARM 相同的计算代价并在多样本变分边界优化中优于当前的 VIMCO 方法。
- ACL用于低资源文本分类的离散潜在变量表示
本文探讨深层潜变量模型的离散潜变量模型,比较不同方法在处理复杂问题时表现的优劣,并在低资源文档和句子分类中展示了更好的结果,其中使用的 Hard EM 极具优势。
- EMNLP用于数据高效文本分类的潜变量生成模型
通过向生成式文本分类器引入离散潜变量,并探究几种图模型配置,我们提高了它的性能,尤其在小数据集下,同时分析了模型的可解释性。
- ICLR变分自编码器中学习潜在超结构用于深层多维聚类
我们研究了一种变分自编码器的变体,其中顶层离散的潜变量是一个超结构。我们的超结构是多个超级潜变量的树结构,并且可以自动从数据中学习。与以往的深度学习方法不同,LTVAE 可以生成多个数据分区,每个分区都由一个超级潜变量给出。这是由于高维数据 - ICML使用离散潜变量在序列模型中进行快速解码
本研究提出使用离散潜变量来扩展序列模型,使解码更可并行化,相对于可比较的自回归模型,我们的模型在神经机器翻译任务中解码快一个数量级,而虽然 BLEU 得分低于纯自回归模型,但比以前提出的非自回归翻译模型获得了更高的分数。
- NIPSREBAR: 离散潜变量模型低方差、无偏梯度估计
本文通过将控制变量与连续松弛相结合的方式来降低离散潜在变量的高方差梯度估计,并引入了一种在线调整松弛度的修改方法,实现了最先进的方差降低并加速了生成建模任务中的收敛。
- ICLR离散变分自编码器
该研究提出了一种使用变分自编码器框架中的反向传播通过离散潜在变量训练带有离散潜变量的概率模型的新方法,能够有效地从无监督数据中学习对象的类别和像素级别的信息,并在 MNIST,Omniglot 和 Caltech-101 Silhouett - ICML蒙特卡罗目标的变分推断
通过使用多样本重要性采样和无偏梯度估计器优化变分下界,从而提高潜变量模型的训练效果。