Jun, 2020

特征扩张奖励学习:重新思考人类输入

TL;DR本文提出了一种人与机器人交互的新方式,通过以人类指导机器人从高表达特征的状态到不表达该特征的状态的方法来学习机器人掌握的特征,然后将其集成到奖励函数中,大大降低了样本复杂度并提高了奖励的泛化性能。