通过变分自编码器实现潜在动作空间，用于对话策略优化的 LAVA

COLINGNov, 2020

通过变分自编码器实现潜在动作空间，用于对话策略优化的 LAVA

LAVA: Latent Action Spaces via Variational Auto-encoding for Dialogue Policy Optimization

Nurul Lubis, Christian Geishauser, Michael Heck, Hsien-chin Lin, Marco Moresi...

TL;DR本文探索使用辅助任务来塑造潜变量分布的三种方式，并选择响应自编码为辅助任务，以获得更具行动性质的潜变量表示，从而支持端到端对话策略优化，并实现最先进的成功率。

Abstract

reinforcement learning (RL) can enable task-oriented dialogue systems to steer the conversation towards successful task completion. In an end-to-end setting, a response can be constructed in a word-level sequential decision making process with the entire system vocabulary as action spa

reinforcement learning end-to-end dialogue systems variational models latent representations dialogue policy optimization

发现论文，激发创造

基于潜变量模型的端对端对话代理强化学习中的行动空间重新思考

该研究提出了一种新颖的潜在动作框架，将端到端会话代理的动作空间视为潜在变量，并开发无监督的方法从数据中诱导其自己的动作空间。实验结果表明，所提出的潜在动作在 DealOrNoDeal 和 MultiWoz 对话上实现了比以前的基于单词级策略梯度方法更好的实证绩效改进。

Feb, 2019

使用较少的监督学习可解释的潜在对话动作

本文介绍了一种用于解释任务对话建模的新型系统，基于离散潜变量表示对话行为。该模型基于变分循环神经网络，无需显式的语义信息。与以前的工作不同，我们的方法分别对系统和用户轮次进行建模，同时执行数据库查询建模，使得该模型适用于任务对话，同时生成易于解释的操作潜变量。我们展示了我们的模型在三个数据集上以较少的监督下在困惑度和 BLEU 方面优于以前的方法，并提出了一种衡量对话成功的新方法，无需专家注释。最后，我们提出了一种关于系统操作的潜变量语义的新方法来解释。

Sep, 2022

潜在扩散下的高效规划

该研究论文介绍了一种统一的框架，利用潜在的、基于分数的扩散模型进行连续潜在行动空间的表示学习和规划，通过考虑预训练的扩散模型进行能量引导抽样，通过引入一种新颖的序列级别的精确抽样方法。所提出的方法在低维机动控制任务上表现出竞争性能，并在高维任务中超过了现有的方法。

Sep, 2023

潜在空间中的对抗学习用于多样对话生成

本文提出了一个基于生成对抗网络的两步框架，通过自编码学习语句的有意义表征，并学习将输入映射到响应表征上，最终将其解码为响应句子，经定量和定性评估证明相对于现有的最先进方法，该模型生成的响应更具流畅性、相关性和多样性。

Nov, 2019

驯服连续后验概率的潜在变分对话策略

本研究使用摊还变分推理方法结合高斯变分后验分布进行强化学习，同时对训练过程进行简化，并提出正则化方法以保持响应一致性，以此在 Task-oriented Dialogue 中取得了最好的对话成功率，并在 MultiWOZ 基准测试中表现出与分类潜在方法相当的结果。

May, 2022

紧凑潜在动作空间中的有效规划

该论文提出了一种基于 Trajectory Autoencoding Planner (TAP) 的规划算法，通过使用低维潜在动作编码和状态条件 VQ-VAE 模型，以及搜索离散的潜在动作来发现高累积奖励可能性的轨迹，并在高维持续行为空间中超越了现有的模型和策略的基线结果。

Aug, 2022

PLATO：基于离散潜变量的预训练对话生成模型

本文提出了基于预训练模型的对话生成框架，采用灵活的注意力机制和离散的潜在变量，解决了响应生成中存在的一对多映射问题，并设计了两种互补的任务对话响应生成和潜在动作识别。实验结果表明，该框架在三个公开数据集上验证了其优越性。

Oct, 2019

随机潜在演员 - 评论家：具有潜在变量模型的深度强化学习

本文介绍了一种基于深度强化学习的算法，通过学习潜在表示来加速图像的强化学习，提出了随机潜在 Actor-Critic（SLAC）算法，并表明其在图像控制任务上的表现优于其他无模型或基于模型的替代方案。

Jul, 2019

使用条件变分自编码器为神经对话模型学习语篇级多样性

本研究提出了一种基于条件变分自编码器（CVAE）的框架，该框架利用潜在变量来学习潜在意图的分布，并仅使用贪婪解码器生成多样化响应，其可以更好地捕获感性多样性和提高决策能力。实验证明，与基线方法相比，所提出的模型可以生成更丰富的响应，并且具有更好的表现。

Mar, 2017

针对连续动作空间的表示学习有助于有效的策略学习

本文提出了一种在潜在状态和动作空间中进行高效策略学习的方法，扩展了状态表示以达到更好的策略泛化能力，同时通过将整个学习任务划分为无监督学习和强化学习来减小了训练规模。最后，在 MountainCar、CarRacing 和 Cheetah 实验中证明了该方法的有效性。

Nov, 2022