May, 2024

逆向前馈课程学习在强化学习中的极端样本和演示效率优化

TL;DR采用逆序课程和正序课程相结合的方法,RFCL,在学习从示范中获得显著改进,并且能够解决过去无法解决的需要高精度和控制的任务。