Mar, 2024
映射路径规划中具等变性的模型集与正则化
Equivariant Ensembles and Regularization for Reinforcement Learning in Map-based Path Planning
Mirco Theile, Hongpeng Cao, Marco Caccamo, Alberto L. Sangiovanni-Vincentelli
TL;DR强化学习中,利用环境对称性可以提高效率、鲁棒性和性能。本文提出了一种构建等变策略和不变值函数的方法,而无需使用专门的神经网络组件,并在训练过程中添加了正则化项以增加归纳偏置。通过基于地图的路径规划案例研究,展示了等变集合和正则化对样本效率和性能的改进。