从像素实现稳定的离线 Deep 强化学习

ICMLJul, 2022

从像素实现稳定的离线 Deep 强化学习

Stabilizing Off-Policy Deep Reinforcement Learning from Pixels

Edoardo Cetin, Philip J. Ball, Steve Roberts, Oya Celiktutan

TL;DR本文提出了一个新的方法 A-LIX，通过提供适应性正则化来防止出现灾难性的自我过度拟合现象，该方法在 DeepMind Control 和 Atari 100k benchmarks 上显著优于之前的最先进方法，而不需要进行数据增强或辅助损失。

Abstract

off-policy reinforcement learning (RL) from pixel observations is notoriously unstable. As a result, many successful algorithms must combine different domain-specific practices and auxiliary losses to learn meaningful behaviors in complex environments. In this work, we provide novel an

off-policy reinforcement learning temporal difference learning catastrophic self-overfitting adaptive regularization deepmind control and atari benchmarks

发现论文，激发创造

基于像素的自主驾驶城市环境强化学习

本文介绍了一种新的通过图像学习的强化学习（RLfP）方法，名为 RLAD，用于提高城市自动驾驶（AD）的性能。该方法包括增强的图像编码器、WayConv1D 和辅助损失等技术，并在 NoCrash 基准测试中明显优于所有其他方法。

May, 2023

使用深度动态模型从图像像素中高效学习反馈策略

本文提出了一种数据有效、基于模型的强化学习算法，通过使用像素信息直接学习闭环控制策略，实现了从像素到扭矩的端到端学习。该方法具有快速学习、高维状态空间可扩展、轻量级等优点，并且是解决在连续状态和动作下进行数据有效强化学习问题的重要步骤。

Oct, 2015

基于像素观测的逐州安全强化学习

本文提出了一种新的像素观测安全强化学习算法，通过引入潜在障碍函数学习机制，高效地编码未知危险区域的状态安全约束，并通过在潜在动力学上建立和学习潜在障碍函数以及同时进行策略优化的联合学习框架，从而在提高安全性和总预期收益方面取得显著的结果。在安全 - gym 基准套件上的实验评估表明，我们提出的方法明显减少了训练过程中的安全违规，并在安全收敛速度上比现有方法更快，同时在奖励回报方面取得了竞争性的结果。

Nov, 2023

从像素到力矩：利用深度动力学模型进行策略学习

本研究解决了一个挑战性问题，即训练一个只使用像素信息来学习闭环控制的智能体。我们提出了一种数据高效且基于模型的增强学习算法，其中关键因素是一个深度动态模型，它使用深度自编码器来学习图像的低维嵌入，并结合在这个低维特征空间的预测模型来直接学习闭环策略。与现有的连续状态和动作的强化学习方法相比，我们的方法学习快速、可适应高维状态空间且可扩展性强，这是实现完全自主单从像素到扭矩的学习的重要一步。

Feb, 2015

图像增强即所需：从像素中对深度强化学习进行正则化

该研究提出了一项简单的数据增强技术，可以应用于标准的无模型强化学习算法，从像素直接学习，无需辅助损失或预训练，并使用图像处理来规范化值函数，实现与 DeepMind 控制套件相关的现有模型的最高表现。

Apr, 2020

数据增强下的卷积神经网络和视觉 transformer 促进深度 Q 学习稳定性

研究了在常见的离线政策 RL 算法中使用数据增强时不稳定性的原因，并提出了一种简单而有效的技术来稳定此类算法。在基于 DeepMind Control Suite 的一系列基准以及机器人操纵任务中，我们的方法极大地提高了 ConvNets 在增强下的稳定性和样本效率，并在具有未见视觉的环境中实现了与基于图像的 RL 中最先进方法的竞争性结果，同时证明了我们的方法可扩展到基于 ViT 的体系结构的 RL。

Jul, 2021

提高基于图像的模型自由强化学习的样本效率

通过引入辅助损失以及消除后效性的影响，提出了一种简单且有效的方法，可以在 MuJoCo 控制任务上匹配最新的无模型和有模型算法，同时在观测噪声下表现出鲁棒性，并且过来了以往使用变分自动编码器所面临的发散问题。

Oct, 2019

从强化学习中分离表示学习

该研究提出了一种从图像中训练深度强化学习模型的新方法，称为增强时序对比学习（ATC），该方法训练一个卷积编码器以用对比损失关联短时间差别的图像对，并成功应用于多个模拟实验中以实现代理在 RL 任务中更好的性能。

Sep, 2020

PixelRL：使用强化学习的全卷积网络进行图像处理

本文提出了一种新颖的深度强化学习方法，即基于像素奖励的强化学习 (pixelRL)，以解决图像处理中的特定任务，如图像去噪、图像恢复、局部颜色增强和基于显著性的图像编辑。通过使用像素智能体来缩小强化学习的范围，提出了一种有效的学习方法，该学习方法不仅考虑了各个像素的未来状态，还考虑了相邻像素的状态。同时，该方法还提高了深度神经网络模型的可解释性和可理解性。

Dec, 2019

使用多步强化学习的全卷积网络进行图像处理

本文介绍了一种新的强化学习方法 —— 像素级奖励 (pixelRL)，加入代理来像素改变像素值，提出了有效地学习方法，可用于各种像素级处理任务中，应用于三个图像处理任务：图像降噪、图像修复和局部调色等，与采用监督学习的现有方法相比，实验结果表明本文提出的方法可以获得相当好的表现。

Nov, 2018