通过在线回归进行选择性采样和模仿学习
本文提出了一种新的迭代算法,该算法在在线学习环境中训练一个稳定的确定性策略,结合特定的降维假设,找到了具有良好性能的策略,克服了之前方法的一些不足,实验表明该方法在两个挑战性的仿真学习问题和基准序列标记问题上表现优异。
Nov, 2010
通过交互式学习和无悔在线学习的分析方法,本文扩展了现有结果,发展了利用成本信息的交互式模仿学习方法,并将该技术扩展到应对强化学习,提供了对在线近似策略迭代成功的理论支持,建议了一系列新的算法,并提供了对模仿学习和强化学习现有技术的统一视角。
Jun, 2014
研究在线序列预测的平滑模仿学习问题,通过学习缩减的方法将其降低到回归问题,并采用正则化复杂函数类以确保平滑度。提出了一种元算法,实现快速稳定地收敛到好的策略,相比于以前的方法,具有全部确定性、自适应学习率等优点,并能保证稳定收敛,实证结果证明了性能得到了显著的提高。
Jun, 2016
本文提出了一种使用多模演示的模仿学习方法,针对现有方法中插值错误的问题,采用与专家状态-行动分布的正向KL散度相对应的反向KL散度,即I-projection,作为不同f-散度估计和最小化的框架,并得出了比GAIL和行为克隆更加可靠的多模行为近似I-projection方法。
May, 2019
本研究通过对演示者专业技能的无监督学习,开发了一种可同时学习演示者政策和专业技能水平的联合模型,并通过过滤每种演示者的次优行为,训练出可以优于任何演示者的单一策略,并可用于估计任意状态下演示者的专业技能,在Robomimic等实际机器人控制任务以及MiniGrid和棋类等离散环境中取得了比其他方法更好的表现。
Feb, 2022
本文提出了一种针对少量优秀数据和大量劣质数据的离线模仿学习问题的解决方案,并且采用了一种松弛的 f-分布来对策略的支持进行规范化,结果表明在六个标准连续控制环境中,相较于最优先的离线模仿学习方法,本文提出的 RelaxDICE 平均性能提升了30%以上。
Mar, 2023
本文旨在探究在不确定转移条件下对对手模仿学习策略的理论基础。我们提出一种算法MB-TAIL,它可以达到最小最大优化专家样本复杂度并改善了当前已知最佳算法OAL的交互复杂度。此外,我们通过将其扩展到函数逼近设置来展示MB-TAIL的泛化能力,并证明它可以实现独立于状态空间大小的专家样本和交互复杂度。
Jun, 2023
我们考虑上下文强化学习和模仿学习中的问题,学习者缺乏执行动作奖励的直接知识,但可以主动查询专家以比较两个动作并获得嘈杂的偏好反馈。本文提供一种算法,利用在线回归预测与函数类相关,在选择动作和决定何时查询时达到最小后悔和最小查询的目标。该算法不要求最优动作与任何子优动作在所有情境下的最小偏好知识,并且获得的后悔界限与标准上下文强化学习中观察到的奖励信号相当。此外,该算法对专家的查询次数仅为O(min{T,d^2/Δ^2})。我们还将算法扩展到模仿学习中,在每个长度为H的回合中,学习代理在未知环境中进行交互,并对后悔和查询复杂度提供类似的保证。有趣的是,我们的模仿学习算法甚至可以在专家表现不佳时超越其性能,凸显了基于偏好反馈在模仿学习中的实际优势。
Jul, 2023