ICLRApr, 2021

模拟过去的学习

TL;DR本文摘要:本研究的目的是基于人类反馈对智能体进行政策学习,同时通过学习特征编码器结合学习反向模型,从而使得智能体能够向后模拟人类行为以推断人类行为背后的动机。