对称 Q 学习：减小在线强化学习中贝尔曼误差的偏斜度

AAAIMar, 2024

对称 Q 学习：减小在线强化学习中贝尔曼误差的偏斜度

Symmetric Q-learning: Reducing Skewness of Bellman Error in Online Reinforcement Learning

Motoki Omura, Takayuki Osa, Yusuke Mukuta, Tatsuya Harada

TL;DR深度强化学习中，通过使用对称 Q 学习方法，将来自零均值分布的合成噪声添加到目标值中，从而生成高斯误差分布，以改善价值函数训练中的偏斜错误分布问题，并提高现有的强化学习方法在连续控制任务中的样本效率。

Abstract

In deep reinforcement learning, estimating the value function to evaluate the quality of states and actions is essential. The value function

deep reinforcement learning value function least squares method skewed error distribution symmetric q-learning

发现论文，激发创造

用于学习高斯策略的平滑动作价值函数

通过对期望 Q 值进行高斯平滑处理得到的行动价值概念可以依据 Bellman 方程进行学习，并且从平滑后的 Q 值函数的梯度和 Hessian 矩阵中可以恢复期望奖励关于参数化高斯策略均值和协方差的梯度。基于这些关系，通过直接从学习的平滑 Q 值逼近器中训练高斯策略的新算法可以通过惩罚先前策略的 KL 散度改进鞭策优化的效果，这种方法在标准的连续控制基准测试中取得了显著的改进。

Mar, 2018

LLQL: 强化学习的逻辑似然 Q-Learning

该研究分析了在线环境和脱机环境中 Bellman 逼近误差的分布特性，并提出了一种新的损失函数 LLoss，其具有更小的方差，并且实验证实了在离线数据集中奖励应该遵循特定分布，这为进一步深入研究提供了有价值的见解。

Jul, 2023

通过软更新降低强化学习中的噪声

提出 G-learning 算法用于强化学习领域，该算法通过对决策策略进行惩罚，实现了对值函数估计的减少偏差，从而在学习过程的初期能够有更快的收敛速度并降低学习成本。

Dec, 2015

基于价值分布的模型化强化学习

基于模型的贝叶斯强化学习视角，本研究旨在学习马尔科夫决策过程中基于参数（认知）不确定性引发的值函数后验分布的不确定性，通过引入一个 Bellman 算子，我们提出了 Epistemic Quantile-Regression (EQR) 算法，该算法学习了一个值函数分布，可用于策略优化，在几个连续控制任务中进行评估，表现优于已建立的基于模型和无模型算法。

Aug, 2023

解决贝尔曼方程的核损失

本文提出了一种新的损失函数，可以使用标准的梯度下降优化，避免了以往算法中需要双样本的问题，并可以与深度学习等函数类相结合，且在多个基准测试中表现可靠和有效。

May, 2019

分布式强化学习的方差控制

基于分布式强化学习的新 Q 函数估计器和 QEMRL 算法通过误差分析和理论证明能够减小偏差和方差，并在 Atari 和 Mujoco 基准任务中显著提高了样本效率和收敛性能。

Jul, 2023

方差减少的分布鲁棒 Q 学习的样本复杂性

本论文提出了两种模型无关的算法，分别是分布鲁棒的 Q-learning 及其方差缩减的版本。这些算法可在处理分布移位时有效地学习强大的策略。在一系列数值实验中，这些算法的理论发现和效率得到了证实。

May, 2023

强化学习中基于离线策略的状态值估计的广义投影贝尔曼误差

本文介绍了一种基于非线性机器学习的强化学习算法，该算法使用一种新的广义均方投影贝尔曼误差作为目标函数，可提高算法的稳定性和性能。

Apr, 2021

LS-IQ: 隐式奖励正则化的逆强化学习

本文研究了使用正则化的隐式奖励函数来解决穿透状态和不稳定性问题，提出了一种新的方法，即最小二乘逆 Q 学习方法 (LS-IQ)，在关键领域取得了最好的性能，特别是在存在穿透状态的环境中。并且我们提出使用逆动力学模型来仅仅通过观察就开始学习。

Mar, 2023

深度离线策略评估的仪器变量回归

该研究探讨了在采用深度强化学习中估计状态行为值函数（Q 函数）时出现的混淆问题，以及如何运用因果推断学中的工具来解决混淆问题，并提供了一些性能良好的解决方案。

May, 2021