ICMLFeb, 2021

从活动描述中进行交互式学习

TL;DR提出了一种交互式学习协议,可以通过口头描述训练实现请求响应的代理程序,相对于强化学习和模仿学习,这种协议提供了更多的反馈并提高了样本效率,通过实验和理论保证,证明了该方法的优势在于更加样本高效且具有竞争性的成功率。