本文介绍了一种强化学习算法,利用模仿学习从零开始获得目标达成策略,而不需要专家演示或价值函数,并通过该算法在多个基准任务中达到了比现有强化学习算法更好的目标达成性能和鲁棒性。
Dec, 2019
通过选择适当的视角从有限的信息中获取专家行为进行第三方模仿学习,并使用生成对抗网络的主动学习方法来理论分析和实证研究其特性和对学习者性能的重要性。
Dec, 2023
通过整合演示(demonstrations)的方法,本研究探讨如何加速强化学习的收敛速度,以达到能够到达任何目标的策略,并且在与其他模仿学习算法训练的代理相比表现更好。
Jun, 2019
研究对象学习通用设置,构建代理可从第三人称的视频中学习并操作未见过的物体,通过分层式结构实现,高级模块生成子目标序列,低级控制器实施,无需完整状态信息,实验展示在 Baxter 机器人上完成倒和放置物体等操作。
Nov, 2019
利用深度模型学习中间视觉表示的抽象能力来从少量的演示序列中快速推断知觉奖励函数,以便在真实世界环境中使用强化学习智能体执行任务。
Dec, 2016
使用回放数据引导的深度强化学习在稀疏奖励任务中往往表现不佳,本研究提出一种使用不同来源的杂乱视频进行一次性模仿学习的方法,在多个著名游戏中实现真人游戏水平以上的表现。
May, 2018
本篇论文旨在探讨利用非专家轨迹收集数据进行监督学习以实现行为策略的泛化,探讨了基于此原理进行的策略搜索的方法,并在标准基准测试中与多种强化学习方法进行了比较。
本文提出和研究了一种隐含模仿的形式模型,通过观察导师,强化学习代理可以提取关于其自身能力和状态空间中未访问部分的相对价值的信息,并阐述了隐含模仿的好处,通过指导单个和多个导师来证明性能和收敛性有所提高。
Jun, 2011
我们提出使用混合增强学习的方法来减少反向强化学习中不必要的探索,通过专家数据在训练过程中引导学习者,从而缩小小型逆强化学习问题的交互过程,取得了较好的策略表现。
Feb, 2024
本研究提出了一种基于 “可教学” 的决策系统的交互式学习监督范式,能够通过学习外部教师提供的结构化建议,解决复杂任务的学习难度,对拼图、导航和运动等各种任务需求的人工干预也相对较少。
Mar, 2022