DrM：通过最小化休眠比率实现视觉强化学习的控制

Oct, 2023

DrM：通过最小化休眠比率实现视觉强化学习的控制

DrM: Mastering Visual Reinforcement Learning through Dormant Ratio Minimization

Guowei Xu, Ruijie Zheng, Yongyuan Liang, Xiyao Wang, Zhecheng Yuan...

TL;DR通过减少网络的休眠比率，提高样本效率和渐进性能的可视化强化学习方法。

Abstract

visual reinforcement learning (RL) has shown promise in continuous control tasks. Despite its progress, current algorithms are still unsatisfactory in virtually every aspect of the performance such as sample efficiency<

visual reinforcement learning sample efficiency asymptotic performance exploration-exploitation trade-offs dormant ratio

发现论文，激发创造

深度强化学习下的行走学习

本文提出了一种基于最大熵强化学习的样本有效的深度强化学习算法，用于学习独立于机器人动力学模型的实际机器人行走姿势，仅需要少量试验即可。实验结果表明，我们的方法可以帮助机器人在约两个小时内直接从零开始建立稳定步态，而不需要任何模型或仿真。同时，我们展现了本算法在单个较佳超参数上实现了最先进的性能，与环境中的适度变化相容。

Dec, 2018

量化先于选择：活跃动态偏好在强化学习中的鲁棒性

通过引入主动动态偏好方法（Active Dynamics Preference），对系统随机参数进行有效选择，并在四个机器人运动任务中进行验证，表明此方法具有超强的适应性和鲁棒性，可有效提高机器人环境下的一致性。

Sep, 2022

通过密度估计进行好奇心驱动的经验优先排序

提出了一种好奇心驱动的优先级策略（CDP）框架，通过模仿人类学习流程，着力于相对罕见的事件，使得机器人在强化学习中更加高效地学习并提高性能。

Feb, 2019

宽松的多智能体深度强化学习

本研究将宽容度应用于多智能体深度强化学习中，通过控制弱化负面策略更新所用的温度值，引入了乐观主义来更新价值函数，从而促进了协作，并在长期规划进程中很可能收敛到最优策略。实证评估表明，相比于标准和调度 HDQN 代理，LDQN 代理更有可能在具有随机奖励的任务中收敛到最优策略。

Jul, 2017

利用密度比例进行在线强化学习

该论文介绍了离线强化学习和在线强化学习的统一理论以及密度比建模在在线强化学习中的存在，并提出了 GLOW 算法和 HyGLOW 算法作为在线探索的方法。

Jan, 2024

高效深度强化学习需要控制过拟合

本文通过对 DeepMind 控制套件中的任务进行控制和系统性分析，研究了数据高效 RL 的瓶颈，发现高 TD 错误是深度强化学习算法性能严重影响的主要罪魁祸首，因此，在任何形式的监督学习中，利用任何形式的正则化技术，找到验证 TD 误差的最低点是使深度 RL 高效的一个强有力的原则。一个简单的在线模型选择方法针对验证 TD 错误在基于状态的 DMC 和 Gym 任务中也是有效的。

Apr, 2023

Lazy-MDPs: 基于学习何时采取行动的可解释强化学习

该论文提出了一种名为 lazy-MDPs 的增强学习新形式，它可以将人类的 “懒惰” 行为方式注入到决策过程中，因此对于解释标准 MDP 的政策能力得到更好的提升，同时该方法在 Atari 游戏中可以实现与竞争水平相当的性能。

Mar, 2022

强韧性对抗性强化学习

提出了一种稳健性的敌对训练 (robust adversarial reinforcement learning, RARL) 方法，该方法将敌对训练与零和极小优化相结合，通过训练一个智能体，使其能够在真实系统上的杂乱因素和不确定性下操作，并在多种环境中进行了验证。

Mar, 2017

掌握视觉连续控制：改进的数据增强强化学习

DrQ-v2 是一个模型无关的强化学习算法，基于 off-policy actor-critic 方法和数据增强，可从像素直接学习并在 DeepMind Control Suite 中实现了复杂的人形运动任务，提供了强大且计算效率高的基线实现。

Jul, 2021

高效零点 V2：以有限数据掌握离散与连续控制

该论文介绍了 EfficientZero V2，它是一个用于高效样本学习的强化学习算法的通用框架，在多个领域中扩展了其性能，包括连续和离散动作以及视觉和低维度输入，在有限数据的情况下，EfficientZero V2 在各种任务中明显优于现有技术，特别是在 Atari 100k、Proprio Control 和 Vision Control 等基准测试中表现出更好的结果。

Mar, 2024