将模仿学习和在线强化学习桥接:一篇乐观的故事
通过交互式学习和无悔在线学习的分析方法,本文扩展了现有结果,发展了利用成本信息的交互式模仿学习方法,并将该技术扩展到应对强化学习,提供了对在线近似策略迭代成功的理论支持,建议了一系列新的算法,并提供了对模仿学习和强化学习现有技术的统一视角。
Jun, 2014
本文介绍两种基于模型的算法,利用 Follow-the-Leader(FTL)规则来提高在线模仿学习系统的收敛速度,其中 MoBIL-VI 算法基于解决变分不等式,而 MoBIL-Prox 算法基于随机一阶更新,这两种方法都利用模型来预测未来的梯度,可以使该学习算法的样本利用率更高。
Jun, 2018
提出了一种新的离线强化学习框架,将模仿学习和通用离线强化学习相结合,中心思想是测量从行为策略到专家策略的偏差,进一步研究了针对未知数据分布下的算法设计问题,提出了一种基于悲观策略的下限置信度算法LCB,在多臂赌博机、情境赌博机和马尔可夫决策过程中进行了有限样本性能研究,结果揭示了一些有关最优性率的令人惊讶的事实。
Mar, 2021
本文研究离线强化学习在何种情况下可以胜过仅仅利用专家数据的行为克隆算法,结果表明:可以在特定的条件下,如稀疏奖励或嘈杂的数据源,现代离线学习方法可以显着地胜过行为克隆算法,尤其是在长期视野问题上,甚至比专家数据上的行为克隆算法更好。
Apr, 2022
该研究提出了一种Policy-guided Offline RL算法,该算法在训练时将想法分解为指导策略和执行策略,并通过指导策略来指导执行策略以实现状态组合性。该算法在离线RL的标准基准D4RL上展示了最高效的性能,并可以通过改变指导策略来轻松适应新的任务。
Oct, 2022
该研究论文旨在通过对强化学习, 凸优化和无偏学习方法进行研究, 提出了一种新方法,即对偶RL方法,可以用于从离线偏置数据中进行无偏学习。
Feb, 2023
研究了强化学习中采用离线轨迹进行数据增强的方法,发现采用离线轨迹进行前置训练或同时进行在线强化学习和离线轨迹训练均能提高样本效率和收敛到最优策略, 预训练只需要两条轨迹数据即可对最终学习结果产生较大影响。
Apr, 2023
本文研究了在线强化学习问题在无限时间段环境中的高效解决方法,其中假设有一个离线数据集作为起点,由一个未知能力水平的专家生成,我们展示了如果学习代理建模了专家使用的行为策略,它可以在最小化累计遗憾方面表现得更好,我们建立了一个前瞻性依赖先验的遗憾界限,提出了近似的被告知RLSVI算法,可以解释为使用离线数据集进行模仿学习,然后进行在线学习。
Oct, 2023
逆强化学习(IRL)是学习奖励函数的问题,该问题通过对专家策略的演示来开发理解和模仿人类行为等智能系统起着关键作用。本文提供了首批有效的IRL结果,包括离线和在线设置,使用多项式采样和运行时间等方面的效率。使用RLP和RLE算法,我们分别设计了离线和在线设置的IRL算法,并建立了样本复杂度的下界,表明RLP和RLE算法是近乎最优的。此外,我们还展示了学习的奖励函数在具有适当相似性假设的目标MDP上的转移能力。
Nov, 2023