Feb, 2023

Taylor TD-learning

TL;DR介绍了一种基于模型的强化学习框架 Taylor TD,通过一阶泰勒级数展开 TD 更新来降低 TD-learning 中方差的问题,并在多个基准测试任务中展示了 TaTD3 算法的表现优于多种现有基准算法。