通过软更新降低强化学习中的噪声

Dec, 2015

通过软更新降低强化学习中的噪声

Taming the Noise in Reinforcement Learning via Soft Updates

Roy Fox, Ari Pakman, Naftali Tishby

TL;DR提出 G-learning 算法用于强化学习领域，该算法通过对决策策略进行惩罚，实现了对值函数估计的减少偏差，从而在学习过程的初期能够有更快的收敛速度并降低学习成本。

Abstract

Model-free reinforcement learning algorithms, such as Q-learning, perform poorly in the early stages of learning in noisy environments, because much effort is spent unlearning biased estimates of the state-action value function. The bias results from selecting, among several noisy esti

reinforcement learning off-policy learning g-learning value-function estimation exploration costs

发现论文，激发创造

处理成本和约束的离策略深度强化学习

混合符号奖励环境中，重新考虑原有策略更新方法的安全性，通过解决数值估计误差的问题和不显式地最大化 Q 值的方法，提出了新的离策略演员 - 评论家方法，以提高深度强化学习算法在连续动作空间中的学习效果。

Nov, 2023

基于隐式 Q 学习的离线强化学习

提出了一种名为 Implicit Q-learning (IQL) 的离线强化学习方法，通过将状态价值函数视为随机变量，利用泛化能力估计在给定状态下最佳可用行为的价值，实现了在不直接查询 Q 函数的情况下改进策略。该方法在离线强化学习标准基准 D4RL 上表现出了最先进的性能。

Oct, 2021

在线非随机模型无关强化学习

该研究探讨了针对动态或敌对环境的强化学习算法，并引入基于干扰信号的新型政策以提高适应性和鲁棒性，并在标准 RL 基准测试中进行了评估并证明了改进的鲁棒性。

May, 2023

通过随机值梯度学习连续控制策略

本文提出了一种使用反向传播学习连续控制策略的统一框架，并通过将贝尔曼方程中的随机性视为外源噪声的确定性函数，来支持随机控制。结果是一系列从有值函数的无模型方法到无值函数的有模型方法的通用策略梯度算法谱。我们使用学习模型，但只需要来自环境的观察而不是模型预测轨迹的观察，最大程度地减少复合模型错误的影响。我们首先将这些算法应用于一个玩具随机控制问题，然后在模拟中将其应用于几个基于物理的控制问题。其中一种变体 SVG（1）显示了在连续领域同时学习模型，价值函数和策略的有效性。

Oct, 2015

对称 Q 学习：减小在线强化学习中贝尔曼误差的偏斜度

深度强化学习中，通过使用对称 Q 学习方法，将来自零均值分布的合成噪声添加到目标值中，从而生成高斯误差分布，以改善价值函数训练中的偏斜错误分布问题，并提高现有的强化学习方法在连续控制任务中的样本效率。

Mar, 2024

基于模型的随机价值梯度在连续强化学习中的应用

本文探讨了基于模型的强化学习与基于模型的无模型强化学习的综合应用方法，发现在高维控制任务中，基于模型的策略评估方法比传统方法更有效。

Aug, 2020

发现强化学习算法

该论文提出一种新的元学习方法，可以通过与一组环境交互，发现一个包含价值函数和时间差分学习等元素的更新规则，从而得到一个名为 LPG 的 RL 算法，该方法可以发现自己对于价值函数的替代方案，并有效地推广到复杂的 Atari 游戏中。

Jul, 2020

离线强化学习的保守型 Q 学习

本论文提出了保守型 Q-learning（CQL），通过学习保守型 Q 函数以得到预期值，有效地解决了离线强化学习（offline RL）中的价值估计问题，从而提高了学习性能。在实验中，我们将 CQL 应用于复杂和多模态数据分布，证明其在离线 RL 方法中的优越性，能学习到比现有离线 RL 方法 2 到 5 倍更高的最终回报的策略

Jun, 2020

使用软 Q 学习平衡双人随机博弈

本文将软 Q - 学习技术应用于随机博弈中的多智能体系统，实现可调的智能体策略，通过理论和实验贡献，证明了软 Q - 学习可以在各种不同类型的博弈中实现优异表现。

Feb, 2018

利用隐空间动态模型的信息最大化探索

本文提出一种基于模型行动选择的强化学习方法，该方法在价值函数的潜在特征空间中学习动态模型，实现机器人和环境的动态表示和模型自我激励，从而解决传统方法当中的探索与利用权衡问题，并使用贝叶斯信息理论方法在高维状态空间中实现高效的计算。我们在多个连续控制任务中评估了该方法的性能，重点是改善探索。

Apr, 2018