ICMLMay, 2024

一个用于离线从人类示范和反馈中学习奖励的统一线性规划框架

TL;DR这篇论文介绍了一个针对离线奖励学习的新型线性规划(LP)框架,通过基于观察到的人类演示和反馈来推断和塑造顺序决策问题的底层奖励函数,并在保持计算可行性和样本效率的同时,提供可证明的样本效率优化保证。