高效神经网络对话策略优化中的不确定性估计

NIPSNov, 2017

高效神经网络对话策略优化中的不确定性估计

Uncertainty Estimates for Efficient Neural Network-based Dialogue Policy Optimisation

Christopher Tegho, Paweł Budzianowski, Milica Gašić

TL;DR本文研究了在对话管理环境下，采用深度强化学习框架（DQN）进行不确定性估计的方法，并与常见的基于高斯过程的方法进行了对比和基准测试，并对优化策略进行了探讨。

Abstract

In statistical dialogue management, the dialogue manager learns a policy that maps a belief state to an action for the system to perform. Efficient exploration is key to successful policy optimisation. Current deep reinforcement learning methods are very promising but rely on epsilon-g

dialogue management deep reinforcement learning uncertainty estimates policy optimization benchmark

发现论文，激发创造

神经信念追踪中的不确定性度量及其对对话策略表现的影响

探究利用不同的不确定性度量方法，将其纳入到神经对话系统的信念追踪中，以提高对话策略性能和鲁棒性。

Sep, 2021

深度强化学习中的风险和不确定性估计

提出了一个框架，通过学习的 Q 值来区分和估计强化学习中源于有限数据的认识不确定性和源于随机环境的 aleatoric 不确定性，并引入一种考虑不确定性的 DQN 算法，该算法表现出安全的学习行为，并在 MinAtar 测试中表现出优越性能。

May, 2019

双不确定值网络实现的高效探索

通过跟踪每个可用行动价值的不确定性来研究针对强化学习智能体的定向探索，通过贝叶斯丢弃估计参数不确定性，通过钟形曲线的高斯分布传播来估计回报不确定性，并使用学习的分布直接推导策略。

Nov, 2017

通过不确定性估计实现高样本利用率的深度强化学习

本文提出了一种名为逆方差强化学习的贝叶斯框架，结合概率一致集和批次逆方差加权，采用两种互补的不确定性估计方法来更好地缓解深强化学习中嘈杂监督的负面影响，从而显著提高了离散和连续控制任务的样本效率。

Jan, 2022

具有模型不确定性估计的安全强化学习

使用 MC-Dropout 和 Bootstrapping 方法来提高安全驾驶机器人的模型稳定性，实现在未知数据情况下的碰撞回避。

Oct, 2018

BBQ-Networks: 面向任务型对话系统的深度强化学习高效探索

该研究提出了一种新算法，通过 Thompson 采样和 Bayes-by-Backprop 神经网络，可以显著提高深度 Q 学习代理在对话系统中的探索效率，并表明混合已成功经历的 episode 的回放池可以使 Q 学习成为可能。

Aug, 2016

查询智能体：通过认知不确定性估计提高样本利用效率

本研究提出了一种名为 “Query The Agent (QTA)” 的新算法，它通过在状态空间中估计代理的认识不确定性并在高度不确定的区域中设定目标来显著提高样本效率。 QTA 利用一种名为 “Predictive Uncertainty Networks（PUN）” 的新技术来估计认知不确定性，以便在所有先前观察到的状态下对代理的不确定性进行评估。我们证明 QTA 相对于现有方法具有决定性的样本效率提高。

Oct, 2022

苏格拉底的怀疑回声：在校准的证据强化学习中拥抱不确定性

我们提出了一种新颖的统计方法，用于在无模型分布式强化学习中纳入不确定性感知，它涉及基于分位回归的深度 Q 网络。该算法称为 CEQR-DQN（Calibrated Evidential Quantile Regression in Deep Q Networks），旨在解决在随机环境中分别估计偶然性和认识性不确定性所面临的关键挑战。它将深度证据学习与基于符合推理原则的分位校准相结合，提供明确的、无需样本的全局不确定性计算，而不是基于简单差异的局部估计，从而克服了传统方法在计算和统计效率以及处理超出分布范围观察的局限性。用于一套小型 Atari 游戏（即 MinAtar）的测试中，CEQR-DQN 在得分和学习速度方面超越了类似的现有框架。它对严格评估不确定性的能力改进了探索策略，并可作为其他需要不确定性感知的算法的蓝图。

Feb, 2024

任务导向对话系统中深度强化学习的高效探索

提出了一种新的探索算法，基于 Bayes-by-Backprop 神经网络和重放缓冲区，可以大大提高深度 Q 学习在对话系统中的效率并比传统的探索策略学习得更快。

Nov, 2017

通过贝叶斯深度 Q 网络实现高效探索

这篇论文研究了高维情境下的强化学习，提出了两种基于乐观法和后验采样的算法来解决此问题，并扩展了该方法应用在深度强化学习上，所提出的贝叶斯深度 Q 网络通过采用贝叶斯线性回归的方法调整 Q-networks 的学习方式，使其能够充分平衡探索与执行间的权衡，更加有效地应用在 Atari 游戏中。

Feb, 2018