将模仿学习和在线强化学习桥接:一篇乐观的故事
本文研究了在线强化学习问题在无限时间段环境中的高效解决方法,其中假设有一个离线数据集作为起点,由一个未知能力水平的专家生成,我们展示了如果学习代理建模了专家使用的行为策略,它可以在最小化累计遗憾方面表现得更好,我们建立了一个前瞻性依赖先验的遗憾界限,提出了近似的被告知 RLSVI 算法,可以解释为使用离线数据集进行模仿学习,然后进行在线学习。
Oct, 2023
提出了一种新的离线强化学习框架,将模仿学习和通用离线强化学习相结合,中心思想是测量从行为策略到专家策略的偏差,进一步研究了针对未知数据分布下的算法设计问题,提出了一种基于悲观策略的下限置信度算法 LCB,在多臂赌博机、情境赌博机和马尔可夫决策过程中进行了有限样本性能研究,结果揭示了一些有关最优性率的令人惊讶的事实。
Mar, 2021
利用有限的模仿数据进行自主性提升的开创性框架 —— 模仿引导强化学习(IBRL),在从像素学习的模拟中实现了 7 个具有挑战性的稀疏奖励连续控制任务的最新性能和样本效率,是 RLPD 方法的 6.4 倍成功率的新亮点。
Nov, 2023
我们提出了一种贝叶斯方法来进行离线模型基于的逆向强化学习 (IRL)。该方法通过同时估计专家的奖励函数和对环境动态的主观模型,与现有的离线模型基于 IRL 方法有所不同。我们利用一类先验分布,参数化了专家对环境的模型准确性,以此开发出高维环境中估计专家奖励和主观动态的高效算法。我们的分析揭示了一个新的观点,即当先验认为专家对环境有高度准确的模型时,估计出的策略表现出了稳健的性能。我们在 MuJoCo 环境中验证了这个观察结果,并展示了我们的算法在离线 IRL 问题上优于最先进的方法。
Sep, 2023
该研究通过融合强化学习和模仿学习的方法,利用自适应的策略选择和梯度优化算法,在稀疏奖励场景下有效提高样本效率,并在多个基准领域中展现出卓越的性能。
Oct, 2023
该研究提出了一种 Policy-guided Offline RL 算法,该算法在训练时将想法分解为指导策略和执行策略,并通过指导策略来指导执行策略以实现状态组合性。该算法在离线 RL 的标准基准 D4RL 上展示了最高效的性能,并可以通过改变指导策略来轻松适应新的任务。
Oct, 2022
本文研究了离线强化学习问题,特别是针对有限时间视野 MDPs 的离线强化学习问题的采样效率问题,提出了自适应悲观值迭代算法,并推导了其次优性上界,推广到了无任何假设的情况下,并得到了无假设的本质学习下界,揭示了离线强化学习固有的根本限制。
Oct, 2021
研究了离线逆向强化学习的问题,提出了一种基于双层优化的估计任务公式与新的算法框架来解决这个问题,并在 MuJoCo 中的连续控制任务以及 D4RL 基准测试中的不同数据集上,展示了算法胜过现有最先进的离线 IRL 和模仿学习基准测试大量的结果。
Feb, 2023
本文介绍了一种利用 offline dataset 和 behavioral cloning 来解决 offline imitation learning 问题的算法,该算法额外引入了一个鉴别器来区分专家和非专家数据,并将其输出作为 behavioural cloning 的损失权重,实验结果表明该算法可以提高回报率和训练速度。
Jul, 2022