BBQ-Networks: 面向任务型对话系统的深度强化学习高效探索

Aug, 2016

BBQ-Networks: 面向任务型对话系统的深度强化学习高效探索

BBQ-Networks: Efficient Exploration in Deep Reinforcement Learning for Task-Oriented Dialogue Systems

Zachary C. Lipton, Xiujun Li, Jianfeng Gao, Lihong Li, Faisal Ahmed...

TL;DR该研究提出了一种新算法，通过 Thompson 采样和 Bayes-by-Backprop 神经网络，可以显著提高深度 Q 学习代理在对话系统中的探索效率，并表明混合已成功经历的 episode 的回放池可以使 Q 学习成为可能。

Abstract

We present a new algorithm that significantly improves the efficiency of exploration for deep q-learning agents in dialogue systems. Our agents explore via →

deep q-learning dialogue systems exploration strategies thompson sampling bayes-by-backprop neural network

发现论文，激发创造

任务导向对话系统中深度强化学习的高效探索

提出了一种新的探索算法，基于 Bayes-by-Backprop 神经网络和重放缓冲区，可以大大提高深度 Q 学习在对话系统中的效率并比传统的探索策略学习得更快。

Nov, 2017

通过贝叶斯深度 Q 网络实现高效探索

这篇论文研究了高维情境下的强化学习，提出了两种基于乐观法和后验采样的算法来解决此问题，并扩展了该方法应用在深度强化学习上，所提出的贝叶斯深度 Q 网络通过采用贝叶斯线性回归的方法调整 Q-networks 的学习方式，使其能够充分平衡探索与执行间的权衡，更加有效地应用在 Atari 游戏中。

Feb, 2018

可证明且实用：通过 Langevin Monte Carlo 实现强化学习中的高效探索

本文提出了一种基于 Thompson 采样的可扩展和有效的强化学习策略，通过使用 Langevin Monte Carlo 从其后验分布中直接抽取 Q 函数，该方法只需进行嘈杂的梯度下降更新即可学习 Q 函数的精确后验分布，在深度 RL 中易于部署，取得了优于或类似于 Atari57 套件上现有深度 RL 算法的结果。

May, 2023

深度贝叶斯赌博机对决：贝叶斯深度网络在汤普森抽样中的实证比较

本文主要研究了在复杂的情况下如何在深度强化学习中使用 Thompson 抽样框架的近似贝叶斯神经网络方法，发现在时序决策问题中许多在监督学习中表现良好的方法表现不佳。

Feb, 2018

基于偏好引导的随机探索增强学习高效采样方法

本文提出了一种新颖的基于偏好的 epsilon-greedy 探索算法，以数据效率为主要目标，并使用深度 Q 学习的算法作为研究对象，理论证明了这种算法在策略改进方面的有效性，并且实验证明了与相应的 Q 值风景线的拟合优良以及在四种著名的 DQN 变体中的优越表现。

Jun, 2022

高效神经网络对话策略优化中的不确定性估计

本文研究了在对话管理环境下，采用深度强化学习框架（DQN）进行不确定性估计的方法，并与常见的基于高斯过程的方法进行了对比和基准测试，并对优化策略进行了探讨。

Nov, 2017

LLM 的高效探索

我们提出了在改进大规模语言模型方面，通过高效探索收集人类反馈的实质性好处的证据。在我们的实验中，一个代理程序在逐步生成查询的同时，通过拟合奖励模型来获取反馈。我们最佳的代理程序使用双 Thompson 抽样来生成查询，不确定性则由一种认知神经网络表示。我们的结果表明，高效探索能够在很少的查询次数下实现高水平的性能。此外，不确定性估计和探索策略的选择都起着关键作用。

Feb, 2024

利用深度预测模型在强化学习中激励探索

本文提出一种使用神经网络参数化的模型学习探索奖励的方法，可以用于具有复杂、高维状态空间的任务，同时在 Atari 游戏领域中获得了最一致的改进。

Jul, 2015

通过引导的深度 Q 学习进行深度探究

为解决强化学习中复杂环境下的探索问题，本文提出了一种简单的算法 bootstrapped DQN，通过使用随机值函数实现计算上和统计上的高效探索。与 epsilon-greedy 策略不同，bootstrapped DQN 实现了时序扩展探索，从而可以实现指数级别的更快学习。我们在复杂随机 MDPs 和大规模的街机学习环境中展示了这些优点，并发现 Bootstrapped DQN 可以显著提高 Atari 游戏的学习时间和表现。

Feb, 2016

引导式汤普森抽样与深度探索

本文介绍了一种基于 Bootstrap 技术的新方法，该方法可用于进行类似于 Thompson 抽样的探索，但是不需要显式地维护或从后验分布中采样。该方法特别适用于探索与深度学习耦合的情况。

Jul, 2015