Jul, 2023
基于偏好的主动查询的情境强化学习和模仿学习
Contextual Bandits and Imitation Learning via Preference-Based Active
Queries
TL;DR我们考虑上下文强化学习和模仿学习中的问题,学习者缺乏执行动作奖励的直接知识,但可以主动查询专家以比较两个动作并获得嘈杂的偏好反馈。本文提供一种算法,利用在线回归预测与函数类相关,在选择动作和决定何时查询时达到最小后悔和最小查询的目标。该算法不要求最优动作与任何子优动作在所有情境下的最小偏好知识,并且获得的后悔界限与标准上下文强化学习中观察到的奖励信号相当。此外,该算法对专家的查询次数仅为O(min{T,d^2/Δ^2})。我们还将算法扩展到模仿学习中,在每个长度为H的回合中,学习代理在未知环境中进行交互,并对后悔和查询复杂度提供类似的保证。有趣的是,我们的模仿学习算法甚至可以在专家表现不佳时超越其性能,凸显了基于偏好反馈在模仿学习中的实际优势。