Dec, 2020

离线强化学习的半监督奖励学习

TL;DR通过半监督学习算法,探索在人类奖励注释最小的约束下进行奖励学习,从而在缺少奖励函数的情况下培训机器人行为,并发现奖励模型的质量与最终策略之间的关系。