Nov, 2023

强化学习中时间反演对称性的研究

TL;DR在这篇论文中,我们研究了强化学习中的时间对称性概念,并探讨了如何利用时间对称性来减少样本复杂度。通过开发一种新方法,即时间对称数据增强(TSDA),我们发现这种合成的过渡可以增强强化学习代理在可逆时间场景中的样本效率,进而提高强化学习的样本利用效率。