介绍了一些新的 Q 函数的保优性算子,其中包括局部策略一致性一类的操作,可以有效减缓近似和估计误差对诱导贪心策略的不良影响,并在包括枚举离散问题和连续问题的情形下提供了有效性证明。
Dec, 2015
本文提出了一种基于动作候选的剪裁双估计器算法,用于降低去估计剪裁双 Q 学习算法中的低估计偏差,经实验证明该算法可以更准确地估计最大期望行动价值,并在几个基准问题中表现良好。
May, 2021
本文提出针对 Double Q-learning 中 Clipped Double Q-learning 存在的欠估计偏差问题,设计了一种基于候选动作集的 Clipped Double Q-learning 算法,实现了解决动作的过度估计和欠估计偏差之间的平衡,同时扩展了针对连续动作任务的 Clipped Double Q-learning 算法,并在多个基准问题中表现优异。
Mar, 2022
该研究提议使用被截断的行动的知识来减少连续控制任务中的方差,并证明新的策略梯度估计器比传统估计器效果更好。
Feb, 2018
本文主要研究如何通过自适应标准化目标值来解决学习算法对函数尺度缩放的不变性问题,尤其是在价值反馈学习和 Atari 游戏中,该方法能够消除领域特定的启发式方法,提高整体表现。
Feb, 2016
本文提出一种名为 Amortized Q-learning (AQL) 的方法,利用类似于摊销推理的技术,通过从学习到的建议分布中采样一小部分可能的动作,取代所有动作的昂贵最大化,从而处理离散、连续或混合动作空间,同时保持 Q-learning 的优点。实验结果表明,在具有高达 21 个维度动作的连续控制任务中,AQL 优于 D3PG (Barth-Maron et al., 2018) 和 QT-Opt (Kalashnikov et al., 2018)。在结构化的离散动作空间实验中,AQL 能够有效地学习到良好的策略。
Jan, 2020
人工智能代理、冲突、对手塑造、优势对齐和社会困境是该研究论文的主要关键词和研究领域,通过引入优势对齐方法,该论文证明了对手塑造方法的效果,并在不同情况下取得了最先进的结果。
Jun, 2024
该研究研究了深度强化学习中离散行动空间中的行动泛化能力,发现 Deep Q-Networks 仍能以较小的行动泛化差异在简单领域中实现行动泛化
May, 2022
本研究基于价值强化学习中的连续动作 Q-learning,提出了一个 CAQL 算法,利用混合整数规划来实现最大化问题优化,该方法相对于近似方法具有更好地鲁棒性和推广性,同时在研究中表现优于基于策略的方法。
Sep, 2019
本文提出了一种基于数据增强的优势估计方法,该方法基于 bootstrap 方法计算优势估计,并用于学习和更新策略和价值函数,有效地提高了累积奖励和未知环境的测试性能。
Oct, 2022