通过在线回归进行选择性采样和模仿学习
我们研究了交互式模仿学习,其中学习者通过与演示专家的互动查询动作注释,旨在学习一种能够与专家表现竞争性能且使用尽可能少的注释的策略。我们提出了一种名为集成交互式模仿学习(EIIL)的算法框架,可实现此目标。从理论上讲,我们证明了 EIIL 的一个效率优于 oracle 版本能够保证尖锐的后悔,前提是可以访问某个对状态具有 “探索性” 分布的样本。经验上,EIIL 在连续控制任务中明显超过在线和离线模仿学习基准。我们的工作为使用模型集合进行交互式模仿学习的收益开辟了系统研究。
Dec, 2023
我们考虑上下文强化学习和模仿学习中的问题,学习者缺乏执行动作奖励的直接知识,但可以主动查询专家以比较两个动作并获得嘈杂的偏好反馈。本文提供一种算法,利用在线回归预测与函数类相关,在选择动作和决定何时查询时达到最小后悔和最小查询的目标。该算法不要求最优动作与任何子优动作在所有情境下的最小偏好知识,并且获得的后悔界限与标准上下文强化学习中观察到的奖励信号相当。此外,该算法对专家的查询次数仅为 O (min {T,d^2/Δ^2})。我们还将算法扩展到模仿学习中,在每个长度为 H 的回合中,学习代理在未知环境中进行交互,并对后悔和查询复杂度提供类似的保证。有趣的是,我们的模仿学习算法甚至可以在专家表现不佳时超越其性能,凸显了基于偏好反馈在模仿学习中的实际优势。
Jul, 2023
本文介绍了一种利用 offline dataset 和 behavioral cloning 来解决 offline imitation learning 问题的算法,该算法额外引入了一个鉴别器来区分专家和非专家数据,并将其输出作为 behavioural cloning 的损失权重,实验结果表明该算法可以提高回报率和训练速度。
Jul, 2022
离线模仿学习主要通过有限的专家演示和较大的次优演示来提出一种基于反向软 Q 学习的新方法,通过添加正则化项来对齐学习得到的回报函数,从而有效解决离线模仿学习中的过拟合问题和训练向次优策略靠拢的问题。该方法在标准基准测试中明显优于其他离线模仿学习方法。
Feb, 2024
通过交互式学习和无悔在线学习的分析方法,本文扩展了现有结果,发展了利用成本信息的交互式模仿学习方法,并将该技术扩展到应对强化学习,提供了对在线近似策略迭代成功的理论支持,建议了一系列新的算法,并提供了对模仿学习和强化学习现有技术的统一视角。
Jun, 2014
离线仿真学习(IL)在实际领域中由于专家数据的稀缺性而受到越来越多的关注。本文介绍了一种简单而有效的数据选择方法,基于其结果状态识别积极行为,从而更好地利用动态信息并有效地提取专家行为和有益的多样行为。通过在复杂和高维离线 IL 基准测试中的实验评估,结果表明我们的方法达到了最先进的性能,在 20/21 个基准测试中超越了现有方法,通常是 2-5 倍,并且与行为克隆(BC)保持可比的运行时间。
May, 2024
研究了如何适应信息获取成本昂贵的在线学习问题中平稳变化环境的影响;提出了一种算法用于处理标签有效预测的问题,并扩展到标签有效的赌博反馈和揭示行动部分监测游戏等领域,显著提高了现有算法的性能。
Oct, 2019
本论文针对离线强化学习中,在分布转变时计算 Q 值的问题,提出了基于量化回归的 IQL 策略,结合隐含值规范化框架提出了 SQL 和 EQL 算法,实验结果验证了算法的有效性和鲁棒性。
Mar, 2023
本文提出了一种新的迭代算法,该算法在在线学习环境中训练一个稳定的确定性策略,结合特定的降维假设,找到了具有良好性能的策略,克服了之前方法的一些不足,实验表明该方法在两个挑战性的仿真学习问题和基准序列标记问题上表现优异。
Nov, 2010