在模仿学习中借助数据增强提高游戏智能的泛化能力
本文通过比较三种方法,探究如何寻找适当的数据增强方式,并结合两个新的正则化项,以理论上的方式为某些 actor-critic 算法的数据增广提供支持,最终在 Procgen 基准测试上展示了在相对于标准 RL 算法提高了~40% 的测试性能。我们的代理优于其他针对 RL 中泛化改进的基线。此外,我们还展示了我们的代理学习出更能适应环境变化的策略和表示,包括不保留背景信息的变化。
Jun, 2020
本文研究机器学习领域中的强化学习问题,主要关注于学习能够适应不同环境的策略,探讨数据增强、元学习和对抗训练三种可能的策略泛化方法,发现数据增强方法是有效的,并研究了元学习和对抗学习作为替代的任务不可知方法的潜力。
Sep, 2018
通过模拟分布退化,探究数据增强对模型性能的提升作用,研究发现数据增强方法显著改善了模型的性能,但仍存在明显的泛化差距,强调训练集中的特征多样性对于增强模型泛化能力的关键作用。
Apr, 2024
我们提出了一种新的方法来解决离线强化学习中的泛化问题,通过学习动力学模型并检查其是否与固定类型的转换即状态空间中的平移等变,使用熵正则化增加等变集合并用结果转变的样本增强数据集,最后基于增强数据集使用现成的离线强化学习算法离线学习新策略,实验证明该方法可以大大提高对环境进行测试时的策略效果。
Sep, 2023
本研究提出了一种名为 Reinforcement Learning with Augmented Data 的加强数据的强化学习算法,将图像数据进行数据增强、使用深度神经网络等算法,提取出了数据效率、推广性等方面的关键特征。实验结果表明,该算法可以在 DeepMind 和 OpenAI Gym 等常见测试用例中优于当前最先进的算法。
Apr, 2020
研究了在常见的离线政策 RL 算法中使用数据增强时不稳定性的原因,并提出了一种简单而有效的技术来稳定此类算法。在基于 DeepMind Control Suite 的一系列基准以及机器人操纵任务中,我们的方法极大地提高了 ConvNets 在增强下的稳定性和样本效率,并在具有未见视觉的环境中实现了与基于图像的 RL 中最先进方法的竞争性结果,同时证明了我们的方法可扩展到基于 ViT 的体系结构的 RL。
Jul, 2021
使用数据增强来鼓励模型更喜欢强特征,并且研究其对于特征学习的影响。在测试中,数据增强通常在起初起到反效果的作用,并且较难取代弱特征的强特征学习效果较差。
Apr, 2020
本文针对深度学习部署时出现的不稳定问题,研究了领域泛化方法和数据增强策略。作者聚焦于风格迁移数据增强,展示了如何以简便廉价的策略实现增强,分析了现有领域泛化方法与该策略结合时的表现,并提出了新的领域泛化研究方向。
Jan, 2021
该论文提出了一种使用数据增强进行统一状态表示学习的强化学习通用化方法,可以提高智能体的泛化能力和领域自适应性能在 DeepMind 控制泛化基准测试中的表现,达到了更高的样本效率和 14.3%的领域适应性比最佳基准结果。
Sep, 2022
各种数据增强技术在基于图像的深度强化学习中已被提出。通过分析现有方法,我们可以更好地理解它们及其不同组件的效果,并确定如何更好地利用数据增强。此分析表明了如何通过选择不同的数据增强变换来计算目标 Q 值,以更加有原则地利用数据增强。此外,我们提出了一种名为切线传递(tangent prop)的正则化项,在若干领域中验证了我们的论点,并且与不同基准模型相比,在大多数环境中取得了最先进的性能,并在某些复杂环境中展现了更高的样本效率和更好的泛化能力。
Feb, 2024