研究如何利用对称性以实现强化学习的样本效率,引入检测对称性的新方法,并证明其完整性;提供了将发现的对称性用于功能逼近的框架,并证明基于潜在效益的奖励塑形对于利用对称性特别有效;实验表明,利用对称性信息可以显著提高学习性能。
Jun, 2017
本文提出 Time-reversal symmetry enforced Dynamics Model 方法以增强离线 RL 在小数据集上表现,该方法可用于构建新的 TSRL 算法,对数据效率和泛化性能进行提升。
Jun, 2023
通过数据增强和镜像损失函数的两种方法,将对称不变性纳入深度强化学习中,可在各种具有挑战性的机器人任务中实现更快收敛和改进的学习行为。
Mar, 2024
通过 Cartan 的运动参考系方法,我们提出了一种学习动力学模型的技术,该模型具有指定的对称性,并通过数值实验证明所提出的方法可以学习出更准确的动力学模型。
本文研究了元强化学习中的对称性在元泛化中的作用,我们发现对称性和黑盒元强化学习系统中通常不存在的神经网络可以帮助提高算法泛化性能。通过实验验证,加入这些对称性可以使算法更好地推广到未见过的行动和观测空间、任务和环境之中。
Sep, 2021
在这篇论文中,我们研究了强化学习中的时间对称性概念,并探讨了如何利用时间对称性来减少样本复杂度。通过开发一种新方法,即时间对称数据增强(TSDA),我们发现这种合成的过渡可以增强强化学习代理在可逆时间场景中的样本效率,进而提高强化学习的样本利用效率。
Nov, 2023
提出了一种双 MDP 元强化学习方法,该方法将语言指令和对称数据结合到元 RL 中,能够显著提高元强化学习的泛化能力和学习效率。
Sep, 2022
本文介绍了一种使用神经网络来识别数据集中对称性的方法,并利用嵌入层的结构来识别对称性是否存在以及在输入中对称性的轨道。通过分析输入中的不变轨道,确定所存在的连续或离散对称群,并使用图表述的方式对完全交空间卡拉比 - 雅莫夫流形进行分类,并发现该方法对于识别输入空间中的离散对称性至关重要。
Mar, 2020
提供了将对称性引入机器学习模型的一种统一的理论和方法框架,包括强制已知对称性、发现未知对称性和通过施加凸正则化函数来促进对称性等方面。
该论文提出了一种新颖的基于深度强化学习(DRL)方法来训练机器人的步态控制算法,并引入了一种新的课程学习方法来提供适当的物理辅助,帮助机器人保持平衡和前进。
Jan, 2018