Aug, 2024

部分可观测下的等变强化学习

TL;DR本研究解决了在部分可观测的环境中,机器人学习的样本效率问题。通过将特定群体对称性编码到神经网络中,提出了一种新的等变强化学习方法,使得智能体能够在相关场景中重用先前的解决方案。实验结果表明,等变智能体在样本效率和最终性能上显著优于非等变方法,具有潜在的影响力。