基于潜变量模型的端对端对话代理强化学习中的行动空间重新思考

ACLFeb, 2019

基于潜变量模型的端对端对话代理强化学习中的行动空间重新思考

Rethinking Action Spaces for Reinforcement Learning in End-to-end Dialog Agents with Latent Variable Models

Tiancheng Zhao, Kaige Xie, Maxine Eskenazi

TL;DR该研究提出了一种新颖的潜在动作框架，将端到端会话代理的动作空间视为潜在变量，并开发无监督的方法从数据中诱导其自己的动作空间。实验结果表明，所提出的潜在动作在 DealOrNoDeal 和 MultiWoz 对话上实现了比以前的基于单词级策略梯度方法更好的实证绩效改进。

Abstract

Defining action spaces for conversational agents and optimizing their decision-making process with reinforcement learning is an enduring challenge. Common practice has been to use handcrafted dialog acts, or the

conversational agents reinforcement learning latent actions unsupervised methods policy learning

发现论文，激发创造

通过变分自编码器实现潜在动作空间，用于对话策略优化的 LAVA

本文探索使用辅助任务来塑造潜变量分布的三种方式，并选择响应自编码为辅助任务，以获得更具行动性质的潜变量表示，从而支持端到端对话策略优化，并实现最先进的成功率。

Nov, 2020

使用较少的监督学习可解释的潜在对话动作

本文介绍了一种用于解释任务对话建模的新型系统，基于离散潜变量表示对话行为。该模型基于变分循环神经网络，无需显式的语义信息。与以前的工作不同，我们的方法分别对系统和用户轮次进行建模，同时执行数据库查询建模，使得该模型适用于任务对话，同时生成易于解释的操作潜变量。我们展示了我们的模型在三个数据集上以较少的监督下在困惑度和 BLEU 方面优于以前的方法，并提出了一种衡量对话成功的新方法，无需专家注释。最后，我们提出了一种关于系统操作的潜变量语义的新方法来解释。

Sep, 2022

潜在扩散下的高效规划

该研究论文介绍了一种统一的框架，利用潜在的、基于分数的扩散模型进行连续潜在行动空间的表示学习和规划，通过考虑预训练的扩散模型进行能量引导抽样，通过引入一种新颖的序列级别的精确抽样方法。所提出的方法在低维机动控制任务上表现出竞争性能，并在高维任务中超过了现有的方法。

Sep, 2023

强化学习的潜在变量表示

本文提出了一种基于深度潜变量模型的策略学习框架，在理论上和实践中检验了潜变量模型在优化强化学习中发挥的作用，同时提出了一种计算高效的规划算法，并在多个基准测试中证明了其优越性能。

Dec, 2022

潜在意图对话模型

这篇论文提出了一种使用离散潜在变量来处理自然语言对话场景的深度学习模型，通过使用强化学习进行自动学习和提高表现，相对于传统方法，其能更准确地捕捉自然交互变异性，可广泛应用于人工智能领域。

May, 2017

变动动作空间下的环境感知强化学习

基于强化学习算法的学习历史的监督预训练，通过与环境的交互，能够捕捉学习过程并在上下文中改善对新任务的处理。然而，现有文献在上下文泛化到新行为空间方面仍存在差距。本研究旨在开发一种专门用于泛化到新行为空间的架构和训练方法，通过预测行为嵌入来消除对行为数量的依赖，并使用随机嵌入来增加对上下文的语义推理能力和准备测试时的新未见嵌入。通过多臂赌博环境的实验，证明了我们的模型能够在不需要重新训练的情况下达到数据生成算法的性能。

Dec, 2023

事前学习与行动

本研究使用随机视频预测学习了捕捉场景动态的潜在变量，同时尽量不受场景内容的影响，从而学习代理的行动空间；该方法在半监督学习下表现相当于现有的完全监督方法，在任务如行动条件视频预测和计划学习行动空间时，需要几个数量级更少的行动标签。

Jun, 2018

紧凑潜在动作空间中的有效规划

该论文提出了一种基于 Trajectory Autoencoding Planner (TAP) 的规划算法，通过使用低维潜在动作编码和状态条件 VQ-VAE 模型，以及搜索离散的潜在动作来发现高累积奖励可能性的轨迹，并在高维持续行为空间中超越了现有的模型和策略的基线结果。

Aug, 2022

随机潜在演员 - 评论家：具有潜在变量模型的深度强化学习

本文介绍了一种基于深度强化学习的算法，通过学习潜在表示来加速图像的强化学习，提出了随机潜在 Actor-Critic（SLAC）算法，并表明其在图像控制任务上的表现优于其他无模型或基于模型的替代方案。

Jul, 2019

驯服连续后验概率的潜在变分对话策略

本研究使用摊还变分推理方法结合高斯变分后验分布进行强化学习，同时对训练过程进行简化，并提出正则化方法以保持响应一致性，以此在 Task-oriented Dialogue 中取得了最好的对话成功率，并在 MultiWOZ 基准测试中表现出与分类潜在方法相当的结果。

May, 2022