Dec, 2023

模仿优秀,避免恶劣:安全强化学习的增量方法

TL;DR通过模仿学习和轨迹标记的方法,解决强化学习中的约束问题,并在实验中展示了其优越性能。