Jul, 2023

通过在线回归进行选择性采样和模仿学习

TL;DR本文提出了一种应用选择性抽样的交互式算法,可用于通过主动查询具有噪声的专家反馈实现模仿学习,并提供了关于后者的新算法,同时证明了该算法的后悔和查询复杂度在一定的理论范围内得到优化。