关于具有 $ε$- 贪心探索的 Deep Q-Networks 的收敛性和样本复杂度分析

Oct, 2023

关于具有 $ε$- 贪心探索的 Deep Q-Networks 的收敛性和样本复杂度分析

On the Convergence and Sample Complexity Analysis of Deep Q-Networks with $ε$-Greedy Exploration

Shuai Zhang, Hongkang Li, Meng Wang, Miao Liu, Pin-Yu Chen...

TL;DR该论文通过理论分析探讨了深度强化学习中的深度 Q 网络（DQN）和 ε- 贪心探索。论文提供了对实际情况下采用 ε- 贪心策略的 DQN 的首个理论收敛性和样本复杂度分析，并证明了带有递减 ε 的迭代过程能够几何收敛到最优 Q 值函数。实验验证了论文中得出的理论结论对 DQN 的有效性。

Abstract

This paper provides a theoretical understanding of deep q-network (DQN) with the $\varepsilon$-greedy exploration in deep reinforcement learning. Despite the tremendous empirical achievement of the DQN, its theor

deep q-network exploration theoretical analysis convergence sample complexity

发现论文，激发创造

深度 Q 学习的理论分析

本论文从算法和统计角度出发，对深度强化学习中的深度 Q 网络算法进行了理论分析，并给出了收敛速率。作者还提出了 Minimax-DQN 算法，并将其与马尔可夫博弈的 Nash 均衡进行收敛速率的比较。

Jan, 2019

基于偏好引导的随机探索增强学习高效采样方法

本文提出了一种新颖的基于偏好的 epsilon-greedy 探索算法，以数据效率为主要目标，并使用深度 Q 学习的算法作为研究对象，理论证明了这种算法在策略改进方面的有效性，并且实验证明了与相应的 Q 值风景线的拟合优良以及在四种著名的 DQN 变体中的优越表现。

Jun, 2022

通过贝叶斯深度 Q 网络实现高效探索

这篇论文研究了高维情境下的强化学习，提出了两种基于乐观法和后验采样的算法来解决此问题，并扩展了该方法应用在深度强化学习上，所提出的贝叶斯深度 Q 网络通过采用贝叶斯线性回归的方法调整 Q-networks 的学习方式，使其能够充分平衡探索与执行间的权衡，更加有效地应用在 Atari 游戏中。

Feb, 2018

关于使用双层神经网络参数化的 Fitted Q-Iteration 的全球收敛性

本文研究了一种采用双层 ReLU 神经网络参数化的 Fitted Q-Iteration 算法，通过估计 Q-function 的凸优化问题来实现每次迭代的 Q-function，证明了该方法在具有计数状态空间的情况下可以实现采样复杂度为 $\widetilde {O}(1/ε^2)$。

Nov, 2022

关于探索对于现实生活中学习算法的重要性

本研究中，我们采用了三种 Deep Q-Networks 算法，分别使用了智能采样策略来解决 URRLC 消息的发送问题，证明了方差和最大熵探索的效率比标准的贪婪探索方法更高。

Apr, 2023

BBQ-Networks: 面向任务型对话系统的深度强化学习高效探索

该研究提出了一种新算法，通过 Thompson 采样和 Bayes-by-Backprop 神经网络，可以显著提高深度 Q 学习代理在对话系统中的探索效率，并表明混合已成功经历的 episode 的回放池可以使 Q 学习成为可能。

Aug, 2016

多智能体竞赛中的探索 - 利用：有界理性下的收敛

通过研究充分考虑游戏奖励和探索成本平衡的原型学习模型 Q-learning，我们证明在使用积极探索率的具有异质性学习代理的权重零和多元矩阵游戏中，Q-learning 总是收敛于唯一的量刑 - 反应均衡（QRE），这是有界理性下游戏的标准解决方案概念，并展示了 Q-learning 在竞争环境中的快速收敛性，而无需任何参数微调，在竞争多代理环境中的均衡选择问题提供了算法所需的保证。

Jun, 2021

函数逼近的 Epsilon-Greedy 强化学习保证

本文针对 RL 领域中近视探索政策（如 epsilon-greedy、softmax 或 Gaussian noise）在实际应用中表现出全部、部分失败的情况，提出了一种称为 “myopic exploration gap” 的新复杂度度量方式，探讨了它们在特定任务中表现出良好性质和优势。

Jun, 2022

细致估计，大胆探索

基于双 Q 函数框架，引入一种新的探索策略来解决连续动作空间中政策梯度法探索的问题，通过使用贪婪 Q 值和保守 Q 值的加权和来更新 Q 值，将行动探索与 Q 值更新相结合，并在 Mujoco 基准测试中展示了优越的性能。

Aug, 2023

任务导向对话系统中深度强化学习的高效探索

提出了一种新的探索算法，基于 Bayes-by-Backprop 神经网络和重放缓冲区，可以大大提高深度 Q 学习在对话系统中的效率并比传统的探索策略学习得更快。

Nov, 2017