将模仿学习和结构化预测转化为无遗憾在线学习
通过交互式学习和无悔在线学习的分析方法,本文扩展了现有结果,发展了利用成本信息的交互式模仿学习方法,并将该技术扩展到应对强化学习,提供了对在线近似策略迭代成功的理论支持,建议了一系列新的算法,并提供了对模仿学习和强化学习现有技术的统一视角。
Jun, 2014
研究在线序列预测的平滑模仿学习问题,通过学习缩减的方法将其降低到回归问题,并采用正则化复杂函数类以确保平滑度。提出了一种元算法,实现快速稳定地收敛到好的策略,相比于以前的方法,具有全部确定性、自适应学习率等优点,并能保证稳定收敛,实证结果证明了性能得到了显著的提高。
Jun, 2016
本文讨论了在学习策略时,监督者可能会变化的问题,并提出了一种从收敛监督者进行模仿学习并对其进行形式化。此外,作者将此框架与一类强化学习算法(DPI)相连,并在实验中使用最新的深度模型为监督者的方法在连续控制任务中获得了比深度强化学习基线更好的结果,并提供了多达80倍的策略评估加速。
Jul, 2019
我们通过矩匹配的视角提供了先前大量的模仿学习算法的统一观点,并考虑了学习者和专家之间行为差异之间的分歧以派生出适用于每个算法类别中的所有算法的策略性能的界限。 我们引入了矩恢复的概念,使我们能够清晰地划分每个算法家族的表现如何缓解复合误差,并推导出三种具有强有力的保证,简单实现和有竞争力的经验性能的算法模板(AdVIL,AdRIL和DAeQuIL)。
Mar, 2021
本研究通过对演示者专业技能的无监督学习,开发了一种可同时学习演示者政策和专业技能水平的联合模型,并通过过滤每种演示者的次优行为,训练出可以优于任何演示者的单一策略,并可用于估计任意状态下演示者的专业技能,在Robomimic等实际机器人控制任务以及MiniGrid和棋类等离散环境中取得了比其他方法更好的表现。
Feb, 2022
本文提出了一种针对少量优秀数据和大量劣质数据的离线模仿学习问题的解决方案,并且采用了一种松弛的 f-分布来对策略的支持进行规范化,结果表明在六个标准连续控制环境中,相较于最优先的离线模仿学习方法,本文提出的 RelaxDICE 平均性能提升了30%以上。
Mar, 2023
本文提出了一种应用选择性抽样的交互式算法,可用于通过主动查询具有噪声的专家反馈实现模仿学习,并提供了关于后者的新算法,同时证明了该算法的后悔和查询复杂度在一定的理论范围内得到优化。
Jul, 2023
我们考虑上下文强化学习和模仿学习中的问题,学习者缺乏执行动作奖励的直接知识,但可以主动查询专家以比较两个动作并获得嘈杂的偏好反馈。本文提供一种算法,利用在线回归预测与函数类相关,在选择动作和决定何时查询时达到最小后悔和最小查询的目标。该算法不要求最优动作与任何子优动作在所有情境下的最小偏好知识,并且获得的后悔界限与标准上下文强化学习中观察到的奖励信号相当。此外,该算法对专家的查询次数仅为O(min{T,d^2/Δ^2})。我们还将算法扩展到模仿学习中,在每个长度为H的回合中,学习代理在未知环境中进行交互,并对后悔和查询复杂度提供类似的保证。有趣的是,我们的模仿学习算法甚至可以在专家表现不佳时超越其性能,凸显了基于偏好反馈在模仿学习中的实际优势。
Jul, 2023