利用深度模型学习中间视觉表示的抽象能力来从少量的演示序列中快速推断知觉奖励函数,以便在真实世界环境中使用强化学习智能体执行任务。
Dec, 2016
本文研究了使用非专家人类偏好来定义复杂目标的强化学习系统的方法,并且证明此方法可实现许多复杂的强化学习任务,包括 Atari 游戏和模拟机器人,同时也大幅降低了人类监督成本,以及展示了本方法的灵活性,并可成功使用较短时间完成复杂的新颖行为的训练,同时也采用了前人的人类反馈信息和环境。
Jun, 2017
本文提出了一种利用展示学习技术来解决高维度控制问题的机器人强化学习方法。该方法基于 Deep Deterministic Policy Gradient 算法,通过人体运动学控制收集演示并不需要专门设计的奖励函数,可应用于插入操作等实际机器操作中。
Jul, 2017
本研究利用示范来解决强化学习中稀疏奖励的探索问题,成功地学习了长期、多步骤的机器人任务,方法使用了DDPG和HER算法,提供了一种在仿真机器人任务上比以往RL算法快一个数量级的加速,方法易于实现,能够解决在行为克隆和RL算法中 都无法解决的任务,并且往往表现优于示范策略。
Sep, 2017
提出了一种交互式学习协议,可以通过口头描述训练实现请求响应的代理程序,相对于强化学习和模仿学习,这种协议提供了更多的反馈并提高了样本效率,通过实验和理论保证,证明了该方法的优势在于更加样本高效且具有竞争性的成功率。
Feb, 2021
本文提出了一种基于人机交互的强化学习方法,通过主动查询教师偏好,学习奖励模型并使用其训练智能体,使智能体能够学习更加复杂的任务,包括各种运动和机器人操作技能。与标准奖励函数相比,我们的方法能够利用实时人类反馈有效地预防奖赏利用和学习新行为。
Jun, 2021
本文提出了一种基于示教引导的强化学习方法,该方法通过提取任务中共享的子任务结构,从而显著提高学习效率,并且在迷宫导航和复杂机器人操纵任务上进行了验证。
Jul, 2021
本综述介绍了在复杂环境下采用启发式专家经验演示来加速强化学习决策的优点,讨论了演示在决策学习中各种应用方法,并提供了一个实用的流程示例用于生成和利用演示。
Mar, 2023
使用程序合成方法对深度强化学习代理进行模仿,以了解其学习的概念和决策过程。
Sep, 2023
在多智能体强化学习中,引入个性化专家演示,为每个个体智能体或团队中的每个个体智能体类型定制,以实现合作任务,并展示其在离散和连续环境中的性能优于现有算法。
Mar, 2024