Mar, 2017

机器人黑盒数据高效策略搜索

TL;DR本文提出一种称为 Black-DROPS 的新型基于模型的强化学习算法,使用黑盒算法代替基于梯度的优化算法,可以更灵活地处理奖励函数和策略,并且在数据效率方面与现有最先进算法相当。在模拟环境和机器人系统上进行验证。