视觉强化学习中无界数据增强的配方
本研究提出了一种名为 Reinforcement Learning with Augmented Data 的加强数据的强化学习算法,将图像数据进行数据增强、使用深度神经网络等算法,提取出了数据效率、推广性等方面的关键特征。实验结果表明,该算法可以在 DeepMind 和 OpenAI Gym 等常见测试用例中优于当前最先进的算法。
Apr, 2020
本文提供了关于数据扩增在视觉强化学习中应用的广泛评论。作者提出了一个统一的框架,研究了数据扩增技术在视觉强化学习中的作用,并提供了一些方法来更好地利用扩增数据。最后,作者还通过系统的实证评估,总结了本文的研究内容及未来研究工作的展望。
Oct, 2022
研究了在常见的离线政策 RL 算法中使用数据增强时不稳定性的原因,并提出了一种简单而有效的技术来稳定此类算法。在基于 DeepMind Control Suite 的一系列基准以及机器人操纵任务中,我们的方法极大地提高了 ConvNets 在增强下的稳定性和样本效率,并在具有未见视觉的环境中实现了与基于图像的 RL 中最先进方法的竞争性结果,同时证明了我们的方法可扩展到基于 ViT 的体系结构的 RL。
Jul, 2021
本文提出了 SOft Data Augmentation(SODA)方法,通过在编码器上施加约束,最大化增强和非增强数据的潜在表示之间的互信息,从而提高强化学习的样本效率、泛化能力和稳定性,实验表明该方法显著优于最先进的基于视觉的 RL 方法。
Nov, 2020
本文通过比较三种方法,探究如何寻找适当的数据增强方式,并结合两个新的正则化项,以理论上的方式为某些 actor-critic 算法的数据增广提供支持,最终在 Procgen 基准测试上展示了在相对于标准 RL 算法提高了~40% 的测试性能。我们的代理优于其他针对 RL 中泛化改进的基线。此外,我们还展示了我们的代理学习出更能适应环境变化的策略和表示,包括不保留背景信息的变化。
Jun, 2020
本文探究了数据增强技术在视觉强化学习中的有效性,研究数据增强的相关特征对样本效率的影响并提出了新的操作方法 Random PadResize 和循环增强(Cycling Augmentation)以提高样本利用效率。在 DeepMind 控制套件和 CARLA 驾驶模拟器上的广泛评估表明,与先前的最先进方法相比,我们的方法实现了更好的样本效率。
May, 2023
各种数据增强技术在基于图像的深度强化学习中已被提出。通过分析现有方法,我们可以更好地理解它们及其不同组件的效果,并确定如何更好地利用数据增强。此分析表明了如何通过选择不同的数据增强变换来计算目标 Q 值,以更加有原则地利用数据增强。此外,我们提出了一种名为切线传递(tangent prop)的正则化项,在若干领域中验证了我们的论点,并且与不同基准模型相比,在大多数环境中取得了最先进的性能,并在某些复杂环境中展现了更高的样本效率和更好的泛化能力。
Feb, 2024
该论文提出了一种使用数据增强进行统一状态表示学习的强化学习通用化方法,可以提高智能体的泛化能力和领域自适应性能在 DeepMind 控制泛化基准测试中的表现,达到了更高的样本效率和 14.3%的领域适应性比最佳基准结果。
Sep, 2022
DrQ-v2 是一个模型无关的强化学习算法,基于 off-policy actor-critic 方法和数据增强,可从像素直接学习并在 DeepMind Control Suite 中实现了复杂的人形运动任务,提供了强大且计算效率高的基线实现。
Jul, 2021
该研究提出了一项简单的数据增强技术,可以应用于标准的无模型强化学习算法,从像素直接学习,无需辅助损失或预训练,并使用图像处理来规范化值函数,实现与 DeepMind 控制套件相关的现有模型的最高表现。
Apr, 2020