揭开面纱：释放 Q 学习中的深度之力

Oct, 2023

揭开面纱：释放 Q 学习中的深度之力

Lifting the Veil: Unlocking the Power of Depth in Q-learning

Shao-Bo Lin, Tao Li, Shaojie Tang, Yao Wang, Ding-Xuan Zhou

TL;DR通过统计学习理论的框架，我们理论上证实了深度 Q 学习在捕捉奖励的特殊属性上表现优秀，进而证明了深度 Q 学习优于传统 Q 学习的泛化误差边界，并在供应链管理中的知名啤酒游戏和模拟推荐系统中验证了我们的理论断言。

Abstract

With the help of massive data and rich computational resources, deep Q-learning has been widely used in operations research and management science and has contributed to great success in numerous applications, including recommender systems, supply chains, games, and robotic manipulation. However, the success of →

deep q-learning theoretical verification generalization error bound deep neural networks reinforcement learning

发现论文，激发创造

深度 Q 网络的更好可解释性

本文提出了一种可解释的神经网络架构，用于 Q-learning，在全局层面上使用键值记忆、注意力和可重构嵌入，提供模型行为的全局解释。使用有向探索策略，该模型可以达到与最先进的深度 Q-learning 模型相当的训练奖励，但结果表明该神经网络提取的特征非常浅，并且使用样本外的示例进行后续测试表明代理可以轻松地过拟合训练期间看到的轨迹。

Sep, 2018

深度 Q 学习的理论分析

本论文从算法和统计角度出发，对深度强化学习中的深度 Q 网络算法进行了理论分析，并给出了收敛速率。作者还提出了 Minimax-DQN 算法，并将其与马尔可夫博弈的 Nash 均衡进行收敛速率的比较。

Jan, 2019

有效性视野解释随机环境中的深度强化学习表现

解释为什么深度强化学习算法在实践中表现良好，介绍一种新的强化学习算法 SQIRL，它通过随机探索收集数据，并在这些数据上执行有限次数的值迭代来学习接近最优的策略。

Dec, 2023

深度强化学习简要调查

深度强化学习是 AI 领域的一项重大进展，可以构建具有更高层次视觉世界理解能力的自主系统。本文综述了深度强化学习的中央算法，包括基于价值和基于策略的方法，并重点介绍了深度神经网络在强化学习中的独特优势，最后描述了该领域内的几个当前研究方向。

Aug, 2017

混合量子神经网络的深度强化学习

本研究旨在探究基于门型量子计算机的参数量子电路，通过集成最新的 Qiskit 和 PyTorch 框架，与纯经典深度神经网络进行比较，评估其在模型非自由强化学习问题中的潜力，以及在解决迷宫问题或其他强化学习问题方面、深度量子学习的前景。

Apr, 2023

基于 VQC 的数据重上传强化学习：性能和可训练性

基于经验证据，本研究使用变分量子电路 (VQC) 作为函数逼近器构建了深度 Q - 学习模型，研究了该模型在经典控制基准环境中的性能和可训练性，探讨了数据重新上传对这些指标的影响，并发现 VQC 在这种环境中具有适用性，且在逼近 2 设计时，增加量子比特数不会导致梯度的幅度和方差指数级递减。

Jan, 2024

双 Q 学习的深度强化学习

本文针对 DQN 算法中 Q-learning 超估计行动价值的问题，提出了 Double Q-learning 算法，通过将其与深度神经网络结合得到了一种新的算法，并在数个游戏里得到了更好的表现。

Sep, 2015

深度 Q 学习算法瓶颈的诊断

本研究通过实验调查了 Q-learning 方法在深度强化学习中的潜在问题，并提出了基于神经网络结构的新型采样方法，在高维连续控制领域中获得了显着的改进。

Feb, 2019

使用浅层强化学习技术控制 Atari 游戏的现状

本文研究深度强化学习算法 DQN 在 Atari 2600 游戏中成功的关键，并提供一种通用的表示方法，以减轻对每个游戏进行表示学习的负担，并为未来 ALE 计算机学习领域提供了可复制和可比性的基准。

Dec, 2015

如何折扣深度强化学习：走向新的动态策略

本文研究使用深度神经网络作为函数逼近器来解决逼近真实世界复杂度的强化学习问题。同时，我们探讨了折扣因子在深度 Q 网络（DQN）学习过程中所起的作用，实验结果表明在逐渐增加折扣因子值的情况下，可以显著降低 DQN 学习步骤的数量。当与变动的学习率一起使用时，其在多项实验中均优于原始 DQN，并将这一现象与神经网络在近似于动态规划设置中的不稳定性联系起来，同时描述了在学习过程中可能陷入局部最优解的可能性，从而将我们的讨论与探索 / 利用困境联系起来。

Dec, 2015