ICLRFeb, 2024

深度强化学习中的数据增强再探

TL;DR各种数据增强技术在基于图像的深度强化学习中已被提出。通过分析现有方法,我们可以更好地理解它们及其不同组件的效果,并确定如何更好地利用数据增强。此分析表明了如何通过选择不同的数据增强变换来计算目标 Q 值,以更加有原则地利用数据增强。此外,我们提出了一种名为切线传递(tangent prop)的正则化项,在若干领域中验证了我们的论点,并且与不同基准模型相比,在大多数环境中取得了最先进的性能,并在某些复杂环境中展现了更高的样本效率和更好的泛化能力。