通过交互式学习和无悔在线学习的分析方法,本文扩展了现有结果,发展了利用成本信息的交互式模仿学习方法,并将该技术扩展到应对强化学习,提供了对在线近似策略迭代成功的理论支持,建议了一系列新的算法,并提供了对模仿学习和强化学习现有技术的统一视角。
Jun, 2014
在模仿学习中,我们使用基于样本的方法开发了一种基于策略梯度的算法,即通过学习专家的样本轨迹,找到至少与专家策略一样好的参数化随机策略;该算法可以应用于高维度环境,并保证收敛到局部最小值。
May, 2016
论文提出了一种算法框架,称为层次性指导,旨在通过利用专家的反馈来学习序贯决策制定策略,以应对奖励稀疏和时间范围长等问题,该框架可以在不同的层次上组合不同的imitation learning和reinforcement learning,从而大大减少专家工作量和探索成本,并对该框架的某些实例的标注成本进行了理论分析。
Mar, 2018
本文介绍两种基于模型的算法,利用 Follow-the-Leader(FTL)规则来提高在线模仿学习系统的收敛速度,其中 MoBIL-VI 算法基于解决变分不等式,而 MoBIL-Prox 算法基于随机一阶更新,这两种方法都利用模型来预测未来的梯度,可以使该学习算法的样本利用率更高。
Jun, 2018
本研究提出一种新的算法,它可以使用生成对抗性模仿学习框架,通过图模型来学习未分割演示中的子任务策略,并通过优化图模型中子任务潜在变量和其生成的轨迹之间的有向信息流来提高性能,同时将该方法与现有的层次策略学习框架Options连接起来。
Sep, 2018
本文提出了一种名为Option-GAIL的新方法,用于长期学习任务中的技能学习,其基本思想是通过选项来建模任务层次结构,并通过生成性对抗性优化来训练策略。试验结果表明,Option-GAIL在各种任务中表现优异。
Jun, 2021
研究表明在模仿学习中,学者提出了一个非参数图形标准来确定模仿的可行性,并建立了一个有效的程序来从专家轨迹中学习模仿策略。
Aug, 2022
提出了一种多任务分层对抗逆强化学习方法(MH-AIRL),用于训练具有分层结构的多任务策略,以提高复合任务的表现,增强对复杂、长周期任务的训练效率,降低数据需求以及提高对专家演示的利用效率。实验证明,与现有算法相比,MH-AIRL表现更优。
Oct, 2022
本文提出使用强化学习来识别专家轨迹中的子目标,从而构建一个向量量化生成模型,以进行子目标级别的规划,并在复杂的长期决策问题上表现出色,优于现有技术。
Jan, 2023
目前的论文旨在探索强化学习领域,并在现有方法的基础上构建改进方法,以解决高维度和复杂环境中的学习问题。它通过分层的方式(称为层次强化学习)来分解学习任务,通过构建自主地学习层级结构的代理来提高效果。
Mar, 2024