May, 2024

具有个性化奖励的可证明高效的交互式根植学习

TL;DR通过与环境进行交互并观察依赖奖励的反馈,互动地接触学习(IGL)是一个强大的框架,该框架中学习者通过最大化无法观察的奖励来改进。我们研究了个性化奖励问题,并提出了第一个在实现性条件下能够证明高效的算法。通过分析,我们发现先前工作的阶跃函数估计器可能由于样本有限效应而无法控制地偏离。我们的解决方案是一种新颖的利普希茨奖励估计器,它低估了真实奖励并具有良好的泛化性能。基于该估计器,我们提出了两种算法,一种基于探索 - 利用,另一种基于反间隙加权。我们将 IGL 应用于从图像反馈和文本反馈中进行学习,这是在实践中出现的无奖励设置。实验结果突显了使用我们的利普希茨奖励估计器的重要性和算法的整体有效性。