通过对抗性行为来抑制 Q 学习中的过高估计

Oct, 2023

通过对抗性行为来抑制 Q 学习中的过高估计

Suppressing Overestimation in Q-Learning through Adversarial Behaviors

HyeAnn Lee, Donghwan Lee

TL;DR通过引入虚拟对手行为的虚拟对手 Q 学习（DAQ）算法，该论文旨在解决标准 Q 学习中过高估计偏差的问题，将学习过程建模为一个双人零和博弈，并统一了几种控制过高估计偏差的 Q 学习变体。通过将 DAQ 应用于现成的强化学习算法，可以简单有效地抑制过高估计偏差，并通过运用对抗性 Q 学习的整合视角分析了 DAQ 的有限时间收敛性，通过多个基准环境的实证研究展示了 DAQ 的性能。

Abstract

The goal of this paper is to propose a new q-learning algorithm with a dummy adversarial player, which is called dummy adversarial q-learning (DAQ), that can effectively regulate the →

q-learning dummy adversarial player overestimation bias zero-sum game reinforcement learning

发现论文，激发创造

自我校正 Q-Learning

本文介绍了一种新的自我校正 Q 学习算法，其通过平衡常规 Q-learning 中使用的单估计器的过高估计和 Double Q-learning 中使用的双估计器的低估计来解决最大化偏差问题，并提出了应用于 Deep Q Network 的 Self-correcting DQN 实现，在 Atari 2600 领域的多项任务中表现更好

Dec, 2020

双 Q 学习的深度强化学习

本文针对 DQN 算法中 Q-learning 超估计行动价值的问题，提出了 Double Q-learning 算法，通过将其与深度神经网络结合得到了一种新的算法，并在数个游戏里得到了更好的表现。

Sep, 2015

Maxmin Q-learning：控制 Q-learning 的估计偏差

本文提出 Maxmin Q-learning 算法来减少 Q-learning 中过高估计值的偏置，为了对偏置进行更好的控制，提出了一个可以灵活控制的参数，并经过实验证实了该算法在控制估计偏差方面更为有效，并在多个基准问题上实现了卓越的性能

Feb, 2020

连续强化学习中的双 Q 学习适应

提出了一种基于混合策略、利用两个独立网络来校正过度估计偏差的新方法，在少量 MuJoCo 环境上展示了有前景的接近 SOTA 的结果。

Sep, 2023

LOQA：带有对手 Q 学习意识的学习

本文介绍了一种名为 LOQA 的分布式强化学习算法，用于在部分竞争环境中优化代理个体效用并促进对手之间的合作，在统一代理应用中取得了良好的性能。

May, 2024

针对 Q 学习者的战略化策略：控制理论方法

本文研究了 Q-learning 算法（一种经典且广泛应用于强化学习的方法）在游戏中受到复杂对手战略操纵的易感性，并量化了战略上熟练的代理人在了解对手的 Q-learning 算法的情况下可以如何利用一个天真的 Q-learner。为达到这个目的，我们将战略角色的问题定义为一个马尔可夫决策过程（具有涵盖所有可能的 Q 值的连续状态空间），将 Q-learning 算法作为基础动态系统。我们还提出了一种基于量化的近似方案来处理连续状态空间，并从理论上和数值上分析了其性能。

Mar, 2024

强韧性对抗性强化学习

提出了一种稳健性的敌对训练 (robust adversarial reinforcement learning, RARL) 方法，该方法将敌对训练与零和极小优化相结合，通过训练一个智能体，使其能够在真实系统上的杂乱因素和不确定性下操作，并在多种环境中进行了验证。

Mar, 2017

抓住我吧：利用 Q 学习算法改进网络安全攻击者

为了解决缺乏专业人才应对网络攻击的问题，本文提出了一种基于 Q-Learning 算法以及其变种 Naive Q-Learning 和 DoubleQ-Learning 的网络攻击代理模型，针对网络数据窃取进行测试，结果表明使用 DoubleQ-Learning 算法的代理模型表现最佳。

Feb, 2023

MinMaxMin Q 学习

MinMaxMin 是一种乐观的 Actor-Critic 算法，通过优先级经验回放的方式解决保守的强化学习算法中存在的过高估计偏差问题，实验证明 MinMaxMin 在所有测试任务中相比 DDPG、TD3 和 TD7 都能显著提高性能。

Feb, 2024

带有保守优势学习的同时双 Q 学习对演员 - 评论家方法的应用

该论文提出了 Simultaneous Double Q-learning with Conservative Advantage Learning (SDQ-CAL) 算法，用于改善 Actor-critic Reinforcement Learning 在连续控制任务中的样本效率和过度估计偏差问题，并在连续控制基准测试中实现了最先进的性能。

May, 2022