深度强化学习中目标网络的 t-Soft 更新

Aug, 2020

深度强化学习中目标网络的 t-Soft 更新

t-Soft Update of Target Network for Deep Reinforcement Learning

Taisuke Kobayashi, Wendyam Eric Lionel Ilboudo

TL;DR本文提出了一种新的强化学习（DRL）目标网络的鲁棒更新规则，以替代传统的指数移动平均更新规则，并通过类比于指数移动平均和正态分布之间的关系，基于学生 t 分布衍生了一种 t-soft 更新方法。通过 PyBullet 机器人模拟 DRL 的训练过程，我们发现，使用 t-soft 更新的在线演员 - 评论家算法在得到的回报和 / 或其方差方面优于传统方法。

Abstract

This paper proposes a new robust update rule of target network for deep reinforcement learning (DRL), to replace the conventional update rule

deep reinforcement learning target network update rule student-t distribution actor-critic algorithm

发现论文，激发创造

基于目标的时序差分学习

本文介绍了一种新的基于目标的时间差分（TD）学习算法，并对其收敛性进行了理论分析，该算法与标准的 TD 学习不同，维护两个独立的学习参数 - 目标变量和在线变量，以加速 Deep Q 学习中目标网络的收敛。

Apr, 2019

基于目标分布学习的连续控制策略搜索

本研究提出了新的强化学习方法 —— 目标分布学习 (TDL)，通过交替提出目标分布和训练策略网络来解决现有策略梯度方法可能出现过大梯度和训练不稳定的问题，实验发现这种方法能得到类似或更好的结果，并且更加稳定。

May, 2019

目标网络如何稳定时序差分法

本研究提供了对深度强化学习中关于目标网络的理论解释，通过对拟合部分策略估计方法的形式化定义，解释了目标网络为何可以稳定 TD 学习，并阐述了它的优缺点和在极具挑战性的离线采样和非线性函数逼近设置中保证收敛的条件。

Feb, 2023

加速深度学习训练和提高鲁棒性的乘法更新规则

本文研究了深度学习训练加速和鲁棒性问题，提出了一种优化框架，其中使用了一种新的乘法更新规则，并将其与传统的加性更新项相结合，实验表明该框架可以应用于广泛的优化方法和深度神经网络结构，并加速训练同时提高了模型的鲁棒性。

Jul, 2023

通过双 TD 正则化的演员和评论家来减轻深度强化学习中的估计错误

深度强化学习中的估计偏差问题以及引入的解决机制，包括新的双 TD 规范化的演员 - 评论家（TDR）方法，通过结合分布学习、长 N 步替代阶段奖励（LNSS）方法等 DRL 改进，我们展示了基于 TDR 的演员 - 评论家学习使得 DRL 方法在 DeepMind Control Suite 中能够超越其基线，在挑战性环境中显著提升了 TD3 和 SAC 的性能，使其与 D4PG（当前领先算法）性能媲美，并且还通过平均奖励、收敛速度、学习成功率和学习方差等指标改善了 D4PG 的性能，达到了新的领先水平。

Nov, 2023

使用目标网络打破致命三角

本文研究了使用目标网络作为打破致命三元组的工具，提出了一种新的目标网络更新规则，并在多个离散算法中应用目标网络和岭回归来证明其收敛性。

Jan, 2021

可验证强化学习的策略平滑算法

本文针对强化学习中的深度神经网络，提出了一种能够直接认证总奖励且无需在每一时间步骤都保持鲁棒性的有效方法，其中使用了采样平滑和基于样条插值的鲁棒性证明。

Jun, 2021

突破障碍：平滑 DRL 代理程序中的增强效用和鲁棒性

我们提出了 S-DQN 和 S-PPO 方法，通过对现有平滑代理的改进，在标准 RL 基准测试中显著提高了干净奖励、经验鲁棒性和鲁棒性保证，平均因子分别为 $2.16 imes$ 和 $2.13 imes$。此外，我们引入了 Smoothed Attack，比现有对抗性攻击方法降低平滑代理奖励的效果提高了 $1.89 imes$。

Jun, 2024

稳健且平滑的深度强化学习策略

提出了新的 Deep RL 框架 $ extbf {SR}^2 extbf {L}$，通过引入 smoothness-induced regularization，使学习到的 policy 对连续状态空间的过渡 smooth，提高抗扰动能力和样本效率。在 TRPO 和 DDPG 上实验表明，该方法取得了效果的提升。

Mar, 2020

DSAC-T: 具有三个改进的分布式软行动者 - 评论家算法

这篇论文介绍了对标准的 DSAC 算法进行三个重要修正，包括评论家梯度调整、双值分布学习和基于方差的目标回报剪辑，修改后的 RL 算法被称为 DSAC-T 或 DSAC-v2，在各种基准任务中的表现进行了系统评估，结果显示，在所有测试环境中，不需要任何任务特定的超参数调整，DSAC-T 超越了许多主流的无模型 RL 算法，包括 SAC、TD3、DDPG、TRPO 和 PPO，并且与标准版本相比，DSAC-T 确保了高度稳定的学习过程，并在不同的奖励尺度下具有相似的性能。

Oct, 2023