Mar, 2024

映射路径规划中具等变性的模型集与正则化

TL;DR强化学习中,利用环境对称性可以提高效率、鲁棒性和性能。本文提出了一种构建等变策略和不变值函数的方法,而无需使用专门的神经网络组件,并在训练过程中添加了正则化项以增加归纳偏置。通过基于地图的路径规划案例研究,展示了等变集合和正则化对样本效率和性能的改进。