深度双 Q 学习在演员评论方法中的估计偏差利用

Feb, 2024

深度双 Q 学习在演员评论方法中的估计偏差利用

Exploiting Estimation Bias in Deep Double Q-Learning for Actor-Critic Methods

Alberto Sinigaglia, Niccolò Turcato, Alberto Dalla Libera, Ruggero Carli, Gian Antonio Susto

TL;DR本文介绍了创新的强化学习方法，重点是解决和利用演员 - 评论家方法中连续控制任务中的估计偏差，使用深度双 Q 学习。我们提出了两种新算法：期望延迟深度确定性策略梯度（ExpD3）和偏差利用 - 双延迟深度确定性策略梯度（BE-TD3）。ExpD3 旨在通过单个 $Q$ 估计值减少过高估计的偏差，从而在计算效率和性能之间取得平衡，而 BE-TD3 则旨在在训练过程中动态选择最有利的估计偏差。我们在各种连续控制任务上进行了广泛的实验，证明了我们方法的有效性。我们证明这些算法可以在估计偏差显著影响学习的环境中与现有方法（如 TD3）相匹配甚至超越。实验结果强调了利用偏差改进强化学习中的策略学习的重要性。

Abstract

This paper introduces innovative methods in reinforcement learning (RL), focusing on addressing and exploiting estimation biases in actor-critic

reinforcement learning actor-critic methods deep double q-learning estimation biases continuous control tasks

发现论文，激发创造

通过双 TD 正则化的演员和评论家来减轻深度强化学习中的估计错误

深度强化学习中的估计偏差问题以及引入的解决机制，包括新的双 TD 规范化的演员 - 评论家（TDR）方法，通过结合分布学习、长 N 步替代阶段奖励（LNSS）方法等 DRL 改进，我们展示了基于 TDR 的演员 - 评论家学习使得 DRL 方法在 DeepMind Control Suite 中能够超越其基线，在挑战性环境中显著提升了 TD3 和 SAC 的性能，使其与 D4PG（当前领先算法）性能媲美，并且还通过平均奖励、收敛速度、学习成功率和学习方差等指标改善了 D4PG 的性能，达到了新的领先水平。

Nov, 2023

连续强化学习中的双 Q 学习适应

提出了一种基于混合策略、利用两个独立网络来校正过度估计偏差的新方法，在少量 MuJoCo 环境上展示了有前景的接近 SOTA 的结果。

Sep, 2023

带有保守优势学习的同时双 Q 学习对演员 - 评论家方法的应用

该论文提出了 Simultaneous Double Q-learning with Conservative Advantage Learning (SDQ-CAL) 算法，用于改善 Actor-critic Reinforcement Learning 在连续控制任务中的样本效率和过度估计偏差问题，并在连续控制基准测试中实现了最先进的性能。

May, 2022

双 Q 学习的深度强化学习

本文针对 DQN 算法中 Q-learning 超估计行动价值的问题，提出了 Double Q-learning 算法，通过将其与深度神经网络结合得到了一种新的算法，并在数个游戏里得到了更好的表现。

Sep, 2015

深度强化学习的自适应校准评论家评估

提出了一种称为适应性校准评论家 (ACC) 的方法，并将其应用于 Truncated Quantile Critics 中，实现了自适应调整参数，从而消除了低方差时间差分目标的偏差，并在 OpenAI gym 连续控制基准测试中取得了新的最佳成绩。

Nov, 2021

通过贝叶斯深度 Q 网络实现高效探索

这篇论文研究了高维情境下的强化学习，提出了两种基于乐观法和后验采样的算法来解决此问题，并扩展了该方法应用在深度强化学习上，所提出的贝叶斯深度 Q 网络通过采用贝叶斯线性回归的方法调整 Q-networks 的学习方式，使其能够充分平衡探索与执行间的权衡，更加有效地应用在 Atari 游戏中。

Feb, 2018

解耦的 Actor-Critic

我们提出了一种名为 Decoupled Actor-Critic（DAC）的离策略算法，通过梯度反向传播学习两个不同的演员：一个保守的演员用于时序差分学习，一个乐观的演员用于探索。在 DeepMind Control 任务中，DAC 在低和高回放比例的情况下，并结合了多个设计选择，取得了最新的表现和样本效率。

Oct, 2023

深度原始 - 对偶强化学习：利用贝尔曼对偶加速演员 - 评论家算法

基于深度神经网络的参数 Primal-Dual pi 学习方法，旨在解决马尔可夫决策过程中状态空间大和策略离线学习问题，通过基本线性 Bellman 方法对价值和策略函数进行原始对偶更新，从而更加有效地进行价值和策略更新，在与同类方法比较的测试中表现明显优于最相关的基准方法

Dec, 2017

Actor-Critic 方法中的函数逼近误差处理

该研究提出了一种基于 Double Q-learning 的算法来处理深度 Q-learning 和 actor-critic 算法中出现的过高估计的问题，在 OpenAI Gym 的测试中，该算法表现出优异的性能。

Feb, 2018

抓住意外收获：利用往期成功价值进行非同策略演员 - 评论家算法

提出了混合利用和探索算法（BEE）来解决强化学习后期出现的低估 Q 值问题，具有较高的样本效率和实用性。

Jun, 2023