裁剪优势学习增加鲁棒性的行动间隙

Mar, 2022

裁剪优势学习增加鲁棒性的行动间隙

Robust Action Gap Increasing with Clipped Advantage Learning

Zhe Zhang, Yaozhong Gan, Xiaoyang Tan

TL;DR本文介绍了一种新方法 clipped Advantage Learning，该方法能平衡行动差距和快速收敛的关系，同时保持稳健性并在多个强化学习实验中得到验证。

Abstract

advantage learning (AL) seeks to increase the action gap between the optimal action and its competitors, so as to improve the robustness to estimation errors. However, the method becomes problematic when the opti

advantage learning clipped advantage learning robustness value convergence reinforcement learning

发现论文，激发创造

增大行动差距：强化学习的新算子

介绍了一些新的 Q 函数的保优性算子，其中包括局部策略一致性一类的操作，可以有效减缓近似和估计误差对诱导贪心策略的不良影响，并在包括枚举离散问题和连续问题的情形下提供了有效性证明。

Dec, 2015

基于行动候选的裁剪双 Q 学习适用于离散和连续动作任务

本文提出了一种基于动作候选的剪裁双估计器算法，用于降低去估计剪裁双 Q 学习算法中的低估计偏差，经实验证明该算法可以更准确地估计最大期望行动价值，并在几个基准问题中表现良好。

May, 2021

基于动作候选的修剪双 Q 学习：离散和连续动作任务

本文提出针对 Double Q-learning 中 Clipped Double Q-learning 存在的欠估计偏差问题，设计了一种基于候选动作集的 Clipped Double Q-learning 算法，实现了解决动作的过度估计和欠估计偏差之间的平衡，同时扩展了针对连续动作任务的 Clipped Double Q-learning 算法，并在多个基准问题中表现优异。

Mar, 2022

截断行动策略梯度

该研究提议使用被截断的行动的知识来减少连续控制任务中的方差，并证明新的策略梯度估计器比传统估计器效果更好。

Feb, 2018

跨多个数量级学习价值

本文主要研究如何通过自适应标准化目标值来解决学习算法对函数尺度缩放的不变性问题，尤其是在价值反馈学习和 Atari 游戏中，该方法能够消除领域特定的启发式方法，提高整体表现。

Feb, 2016

通过分摊近似最大化实现巨大动作空间中的 Q 学习

本文提出一种名为 Amortized Q-learning (AQL) 的方法，利用类似于摊销推理的技术，通过从学习到的建议分布中采样一小部分可能的动作，取代所有动作的昂贵最大化，从而处理离散、连续或混合动作空间，同时保持 Q-learning 的优点。实验结果表明，在具有高达 21 个维度动作的连续控制任务中，AQL 优于 D3PG (Barth-Maron et al., 2018) 和 QT-Opt (Kalashnikov et al., 2018)。在结构化的离散动作空间实验中，AQL 能够有效地学习到良好的策略。

Jan, 2020

优势对准算法

人工智能代理、冲突、对手塑造、优势对齐和社会困境是该研究论文的主要关键词和研究领域，通过引入优势对齐方法，该论文证明了对手塑造方法的效果，并在不同情况下取得了最先进的结果。

Jun, 2024

深度 Q 学习中行动泛化差距的表征

该研究研究了深度强化学习中离散行动空间中的行动泛化能力，发现 Deep Q-Networks 仍能以较小的行动泛化差异在简单领域中实现行动泛化

May, 2022

CAQL: 连续动作 Q 学习

本研究基于价值强化学习中的连续动作 Q-learning，提出了一个 CAQL 算法，利用混合整数规划来实现最大化问题优化，该方法相对于近似方法具有更好地鲁棒性和推广性，同时在研究中表现优于基于策略的方法。

Sep, 2019

强化学习中策略优化的 Bootstrap 优势估计

本文提出了一种基于数据增强的优势估计方法，该方法基于 bootstrap 方法计算优势估计，并用于学习和更新策略和价值函数，有效地提高了累积奖励和未知环境的测试性能。

Oct, 2022