- ICML反向受限强化学习
研究使用强化学习智能体从行为演示中学习约束以及将其迁移到具有不同形态和奖励功能的新智能体的方法,建立了能够在高维度完全无模型的情况下学习任意 Markovian 约束的框架,并且该方法与之前的工作相比,在离散设置、特定类型约束和环境转移动力 - ICML使用时间变分推断学习机器人技能
该论文提出了一个机器人选项无监督学习的框架,利用连续潜变量表示选项,然后通过基于时间分解的变分推理来学习控制策略和高层策略,以及演示各种任务的机器人。
- 利用演示高效解决难度探索问题
介绍了 R2D3,这是一种代理程序,可有效利用演示来解决部分可观测环境下高度可变的难解探索问题。我们还介绍了一套结合这三个属性的八项任务,并展示了 R2D3 可以解决多项任务,在其他现有方法(无论是否使用演示)经过数十亿步探索后,仍无法看到 - ICML学习人类偏好以便推理奖励的可行性探讨
我们提出一种基于不可微分计划器的逆强化学习,用于推断从专家提供的演示中学习奖励函数,并与采用特定假设的数学模型相比,我们的方法可以得到更好的奖励推断,同时保持在数据驱动方法和已知人类偏差之间的平衡。
- 整合人类演示和偏好的学习奖励函数
该研究提出了 DemPref 框架,结合演示和偏好查询来学习奖励函数,其对标准偏好学习方法具有更高的效率和更好的性能。
- 目标驱动的模仿学习
通过整合演示(demonstrations)的方法,本研究探讨如何加速强化学习的收敛速度,以达到能够到达任何目标的策略,并且在与其他模仿学习算法训练的代理相比表现更好。
- ICML代理程序设计的可扩展交互界面
本研究提出了一种用演示交互地规定任务的方式,以解决人工智能领域中任务规定的挑战。该方法基于已有的演示生成新的、更复杂的任务,通过训练新的策略实现更高效的学习,并在月球着陆场景中验证了其效果。
- 风险感知主动逆强化学习
本文提出一种风险感知主动逆强化学习算法,旨在最小化机器人正在学习的策略的性能风险,并将主动查询集中在具有潜在大通用误差的状态空间区域,证明该算法在网格世界、模拟驾驶和桌子铺设任务上优于标准主动逆强化学习方法,并提供一种基于性能的停止准则,使 - AAAI回放:必须不停地倒转
提高样本效率是模型自由强化学习中的一个挑战,本文提出了一种名为 Backplay 的方法,利用单个演示构建任务的课程并以该演示的末端为起点进行训练,最终在可竞争方法中优化训练速度。
- AAAI逆强化学习的机器教学:算法与应用
该研究提出了一种基于机器教学的逆强化学习方法,利用最小数量的演示数据来学习策略并提高泛化性能。同时,还发展了一个新的学习方法,在一些应用中可以从信息丰富的演示数据中更加高效地学习到奖励函数。
- ICLR使用工作流引导探索的 Web 界面上的强化学习
使用演示进行探索约束的工作流引导探索算法提高了强化学习智能体在面向网络任务中的效率
- 利用演示克服强化学习中的探索问题
本研究利用示范来解决强化学习中稀疏奖励的探索问题,成功地学习了长期、多步骤的机器人任务,方法使用了 DDPG 和 HER 算法,提供了一种在仿真机器人任务上比以往 RL 算法快一个数量级的加速,方法易于实现,能够解决在行为克隆和 RL 算法 - 利用演示来解决机器人问题中稀疏奖励的深度强化学习
本文提出了一种利用展示学习技术来解决高维度控制问题的机器人强化学习方法。该方法基于 Deep Deterministic Policy Gradient 算法,通过人体运动学控制收集演示并不需要专门设计的奖励函数,可应用于插入操作等实际机器 - AAAI逆强化学习的高效概率性能界限
本文提出了一种基于贝叶斯思想的采样方法,可用于确定在反向强化学习环境下实际高置信度策略性绩效界限,并演示如何利用该界限进行风险感知的策略选择和改进。