图像增强即所需：从像素中对深度强化学习进行正则化

Apr, 2020

图像增强即所需：从像素中对深度强化学习进行正则化

Image Augmentation Is All You Need: Regularizing Deep Reinforcement Learning from Pixels

Ilya Kostrikov, Denis Yarats, Rob Fergus

TL;DR该研究提出了一项简单的数据增强技术，可以应用于标准的无模型强化学习算法，从像素直接学习，无需辅助损失或预训练，并使用图像处理来规范化值函数，实现与 DeepMind 控制套件相关的现有模型的最高表现。

Abstract

We propose a simple data augmentation technique that can be applied to standard model-free reinforcement learning algorithms, enabling robust learning directly from →

data augmentation reinforcement learning pixels computer vision performance

发现论文，激发创造

深度强化学习中的自动数据增强以实现泛化能力

本文通过比较三种方法，探究如何寻找适当的数据增强方式，并结合两个新的正则化项，以理论上的方式为某些 actor-critic 算法的数据增广提供支持，最终在 Procgen 基准测试上展示了在相对于标准 RL 算法提高了～40% 的测试性能。我们的代理优于其他针对 RL 中泛化改进的基线。此外，我们还展示了我们的代理学习出更能适应环境变化的策略和表示，包括不保留背景信息的变化。

Jun, 2020

通过增强数据进行的强化学习

本研究提出了一种名为 Reinforcement Learning with Augmented Data 的加强数据的强化学习算法，将图像数据进行数据增强、使用深度神经网络等算法，提取出了数据效率、推广性等方面的关键特征。实验结果表明，该算法可以在 DeepMind 和 OpenAI Gym 等常见测试用例中优于当前最先进的算法。

Apr, 2020

数据增强下的卷积神经网络和视觉 transformer 促进深度 Q 学习稳定性

研究了在常见的离线政策 RL 算法中使用数据增强时不稳定性的原因，并提出了一种简单而有效的技术来稳定此类算法。在基于 DeepMind Control Suite 的一系列基准以及机器人操纵任务中，我们的方法极大地提高了 ConvNets 在增强下的稳定性和样本效率，并在具有未见视觉的环境中实现了与基于图像的 RL 中最先进方法的竞争性结果，同时证明了我们的方法可扩展到基于 ViT 的体系结构的 RL。

Jul, 2021

深度强化学习中的数据增强再探

各种数据增强技术在基于图像的深度强化学习中已被提出。通过分析现有方法，我们可以更好地理解它们及其不同组件的效果，并确定如何更好地利用数据增强。此分析表明了如何通过选择不同的数据增强变换来计算目标 Q 值，以更加有原则地利用数据增强。此外，我们提出了一种名为切线传递（tangent prop）的正则化项，在若干领域中验证了我们的论点，并且与不同基准模型相比，在大多数环境中取得了最先进的性能，并在某些复杂环境中展现了更高的样本效率和更好的泛化能力。

Feb, 2024

小数据集有效训练的替代正则化方法

通过使用替代的正则化策略来推动小图像分类数据集上的有监督学习，研究取得了与最先进的方法相当的测试准确率。

Sep, 2023

PixelRL：使用强化学习的全卷积网络进行图像处理

本文提出了一种新颖的深度强化学习方法，即基于像素奖励的强化学习 (pixelRL)，以解决图像处理中的特定任务，如图像去噪、图像恢复、局部颜色增强和基于显著性的图像编辑。通过使用像素智能体来缩小强化学习的范围，提出了一种有效的学习方法，该学习方法不仅考虑了各个像素的未来状态，还考虑了相邻像素的状态。同时，该方法还提高了深度神经网络模型的可解释性和可理解性。

Dec, 2019

使用深度动态模型从图像像素中高效学习反馈策略

本文提出了一种数据有效、基于模型的强化学习算法，通过使用像素信息直接学习闭环控制策略，实现了从像素到扭矩的端到端学习。该方法具有快速学习、高维状态空间可扩展、轻量级等优点，并且是解决在连续状态和动作下进行数据有效强化学习问题的重要步骤。

Oct, 2015

使用多步强化学习的全卷积网络进行图像处理

本文介绍了一种新的强化学习方法 —— 像素级奖励 (pixelRL)，加入代理来像素改变像素值，提出了有效地学习方法，可用于各种像素级处理任务中，应用于三个图像处理任务：图像降噪、图像修复和局部调色等，与采用监督学习的现有方法相比，实验结果表明本文提出的方法可以获得相当好的表现。

Nov, 2018

增强学习的简单噪声环境增强

本文介绍了针对强化学习 (RL) 的数据增强技术，旨在提高 RL 算法在不同环境下的表现效果，包括引入噪声、探索状态空间和改善训练数据的多样性。作者提出了两种新的增强技术，并在三种常用的 RL 算法和五个 MuJoCo 环境中进行实验研究，结果表明增强技术对增加回报有积极作用。

May, 2023

从像素到力矩：利用深度动力学模型进行策略学习

本研究解决了一个挑战性问题，即训练一个只使用像素信息来学习闭环控制的智能体。我们提出了一种数据高效且基于模型的增强学习算法，其中关键因素是一个深度动态模型，它使用深度自编码器来学习图像的低维嵌入，并结合在这个低维特征空间的预测模型来直接学习闭环策略。与现有的连续状态和动作的强化学习方法相比，我们的方法学习快速、可适应高维状态空间且可扩展性强，这是实现完全自主单从像素到扭矩的学习的重要一步。

Feb, 2015