任务导向对话系统中深度强化学习的高效探索

Nov, 2017

任务导向对话系统中深度强化学习的高效探索

BBQ-Networks: Efficient Exploration in Deep Reinforcement Learning for Task-Oriented Dialogue Systems

Zachary Lipton, Xiujun Li, Jianfeng Gao, Lihong Li, Faisal Ahmed...

TL;DR提出了一种新的探索算法，基于 Bayes-by-Backprop 神经网络和重放缓冲区，可以大大提高深度 Q 学习在对话系统中的效率并比传统的探索策略学习得更快。

Abstract

We present a new algorithm that significantly improves the efficiency of exploration for deep q-learning agents in dialogue systems. Our agents explore via Thompson sampling, drawing Monte Carlo samples from a Ba

deep q-learning agents dialogue systems exploration algorithm bayes-by-backprop neural network replay buffer

发现论文，激发创造

BBQ-Networks: 面向任务型对话系统的深度强化学习高效探索

该研究提出了一种新算法，通过 Thompson 采样和 Bayes-by-Backprop 神经网络，可以显著提高深度 Q 学习代理在对话系统中的探索效率，并表明混合已成功经历的 episode 的回放池可以使 Q 学习成为可能。

Aug, 2016

通过贝叶斯深度 Q 网络实现高效探索

这篇论文研究了高维情境下的强化学习，提出了两种基于乐观法和后验采样的算法来解决此问题，并扩展了该方法应用在深度强化学习上，所提出的贝叶斯深度 Q 网络通过采用贝叶斯线性回归的方法调整 Q-networks 的学习方式，使其能够充分平衡探索与执行间的权衡，更加有效地应用在 Atari 游戏中。

Feb, 2018

可证明且实用：通过 Langevin Monte Carlo 实现强化学习中的高效探索

本文提出了一种基于 Thompson 采样的可扩展和有效的强化学习策略，通过使用 Langevin Monte Carlo 从其后验分布中直接抽取 Q 函数，该方法只需进行嘈杂的梯度下降更新即可学习 Q 函数的精确后验分布，在深度 RL 中易于部署，取得了优于或类似于 Atari57 套件上现有深度 RL 算法的结果。

May, 2023

深度贝叶斯赌博机对决：贝叶斯深度网络在汤普森抽样中的实证比较

本文主要研究了在复杂的情况下如何在深度强化学习中使用 Thompson 抽样框架的近似贝叶斯神经网络方法，发现在时序决策问题中许多在监督学习中表现良好的方法表现不佳。

Feb, 2018

高效神经网络对话策略优化中的不确定性估计

本文研究了在对话管理环境下，采用深度强化学习框架（DQN）进行不确定性估计的方法，并与常见的基于高斯过程的方法进行了对比和基准测试，并对优化策略进行了探讨。

Nov, 2017

基于偏好引导的随机探索增强学习高效采样方法

本文提出了一种新颖的基于偏好的 epsilon-greedy 探索算法，以数据效率为主要目标，并使用深度 Q 学习的算法作为研究对象，理论证明了这种算法在策略改进方面的有效性，并且实验证明了与相应的 Q 值风景线的拟合优良以及在四种著名的 DQN 变体中的优越表现。

Jun, 2022

LLM 的高效探索

我们提出了在改进大规模语言模型方面，通过高效探索收集人类反馈的实质性好处的证据。在我们的实验中，一个代理程序在逐步生成查询的同时，通过拟合奖励模型来获取反馈。我们最佳的代理程序使用双 Thompson 抽样来生成查询，不确定性则由一种认知神经网络表示。我们的结果表明，高效探索能够在很少的查询次数下实现高水平的性能。此外，不确定性估计和探索策略的选择都起着关键作用。

Feb, 2024

利用深度预测模型在强化学习中激励探索

本文提出一种使用神经网络参数化的模型学习探索奖励的方法，可以用于具有复杂、高维状态空间的任务，同时在 Atari 游戏领域中获得了最一致的改进。

Jul, 2015

关于探索对于现实生活中学习算法的重要性

本研究中，我们采用了三种 Deep Q-Networks 算法，分别使用了智能采样策略来解决 URRLC 消息的发送问题，证明了方差和最大熵探索的效率比标准的贪婪探索方法更高。

Apr, 2023

使用层次行动探索的深度强化学习实现对话生成

本文提出一种新的双粒度 Q 函数，通过探索最有前途的响应类型来介入采样，从而解决自然语言行动空间巨大所带来的效率问题，在多个设计用于识别人类情感细节的奖励函数中，以离线强化学习的方式学习，我们的算法在实证研究中表现优于基线方法，进一步验证表明我们的方法可以生成更高期望奖励和可控性响应。

Mar, 2023