关于探索对于现实生活中学习算法的重要性

Apr, 2023

关于探索对于现实生活中学习算法的重要性

On the Importance of Exploration for Real Life Learned Algorithms

Steffen Gracla, Carsten Bockelmann, Armin Dekorsy

TL;DR本研究中，我们采用了三种 Deep Q-Networks 算法，分别使用了智能采样策略来解决 URRLC 消息的发送问题，证明了方差和最大熵探索的效率比标准的贪婪探索方法更高。

Abstract

The quality of data driven learning algorithms scales significantly with the quality of data available. One of the most straight-forward ways to generate good data is to sample or explore the data source intelligently.

data driven learning algorithms smart sampling deep q-networks adaptive exploration urrlc messages

发现论文，激发创造

强化学习中勘探对泛化的重要性

基于探索的深度强化学习方法对新环境具有良好的泛化能力，通过使用一种基于 Q 值分布集合的探索方法，该算法在 Procgen 和 Crafter 两个高维强化学习一般化基准上取得了最新的进展。

Jun, 2023

基于偏好引导的随机探索增强学习高效采样方法

本文提出了一种新颖的基于偏好的 epsilon-greedy 探索算法，以数据效率为主要目标，并使用深度 Q 学习的算法作为研究对象，理论证明了这种算法在策略改进方面的有效性，并且实验证明了与相应的 Q 值风景线的拟合优良以及在四种著名的 DQN 变体中的优越表现。

Jun, 2022

BBQ-Networks: 面向任务型对话系统的深度强化学习高效探索

该研究提出了一种新算法，通过 Thompson 采样和 Bayes-by-Backprop 神经网络，可以显著提高深度 Q 学习代理在对话系统中的探索效率，并表明混合已成功经历的 episode 的回放池可以使 Q 学习成为可能。

Aug, 2016

任务导向对话系统中深度强化学习的高效探索

提出了一种新的探索算法，基于 Bayes-by-Backprop 神经网络和重放缓冲区，可以大大提高深度 Q 学习在对话系统中的效率并比传统的探索策略学习得更快。

Nov, 2017

为高效探索确定目标取向轨迹

本研究查明了纯随机漫步无法在大多数环境中成功扩展探索领域，并提出将单个随机操作选择替换为随机目标选择，该方法与任何基于好奇心的探索和脱机强化学习代理兼容，并生成比单个随机操作更长且更安全的轨迹。

Jul, 2018

当简单探索具有样本效率：确定随机探索达到 PAC RL 算法的充分条件

本研究提出了基于随机游走探索的 Q 学习的问题特定样本复杂度界限，该界限依赖于多个结构性质，并将理论结果与某些经验基准领域相关联，以说明我们的界限在这些领域中是否具有多项式样本复杂度并与经验绩效相关。

May, 2018

通用智能需要重新思考探索

通过将探索驱动的学习概念性地统一监督学习和强化学习之间的探索驱动学习，我们提出了广义探索问题，以突出不同学习设置之间的关键相似之处和开放研究挑战，广义探索是用于维护开放式学习过程的必要目标。

Nov, 2022

关于具有 $ε$- 贪心探索的 Deep Q-Networks 的收敛性和样本复杂度分析

该论文通过理论分析探讨了深度强化学习中的深度 Q 网络（DQN）和 ε- 贪心探索。论文提供了对实际情况下采用 ε- 贪心策略的 DQN 的首个理论收敛性和样本复杂度分析，并证明了带有递减 ε 的迭代过程能够几何收敛到最优 Q 值函数。实验验证了论文中得出的理论结论对 DQN 的有效性。

Oct, 2023

深度强化学习多样性驱动的探索策略

本文介绍了一种基于差异性驱动的强化学习探索方法，结合在线和离线强化学习算法，通过向损失函数中添加距离度量，显著提高了代理的探索行为，从而防止局部最优解以及进行了学习进程的自适应缩放方法，实验表明该方法在 Atari 2600 中在多个任务中显著优于基线方法.

Feb, 2018

MEET: 一种用于缓冲区采样的 Monte Carlo 探索 - 利用权衡算法

本文提出了一种新的采样策略，基于 Q 值函数的不确定性估计，指导采样探索更重要的转移，从而学习到更有效的策略，实验表明，在各种环境下，该方法在收敛和峰值性能方面的表现平均超过现有策略 26%。

Oct, 2022