代理程序设计的可扩展交互界面

Jun, 2019

An Extensible Interactive Interface for Agent Design

Matthew Rahtz, James Fang, Anca D. Dragan, Dylan Hadfield-Menell

TL;DR本研究提出了一种用演示交互地规定任务的方式，以解决人工智能领域中任务规定的挑战。该方法基于已有的演示生成新的、更复杂的任务，通过训练新的策略实现更高效的学习，并在月球着陆场景中验证了其效果。

Abstract

In artificial intelligence, we often specify tasks through a reward function. While this works well in some settings, many tasks are hard to specify this way. In deep reinforcement learning, for example, directly

发现论文，激发创造

无监督感知奖励用于模仿学习

利用深度模型学习中间视觉表示的抽象能力来从少量的演示序列中快速推断知觉奖励函数，以便在真实世界环境中使用强化学习智能体执行任务。

Dec, 2016

深度强化学习从人类偏好中学习

本文研究了使用非专家人类偏好来定义复杂目标的强化学习系统的方法，并且证明此方法可实现许多复杂的强化学习任务，包括 Atari 游戏和模拟机器人，同时也大幅降低了人类监督成本，以及展示了本方法的灵活性，并可成功使用较短时间完成复杂的新颖行为的训练，同时也采用了前人的人类反馈信息和环境。

Jun, 2017

利用演示来解决机器人问题中稀疏奖励的深度强化学习

本文提出了一种利用展示学习技术来解决高维度控制问题的机器人强化学习方法。该方法基于 Deep Deterministic Policy Gradient 算法，通过人体运动学控制收集演示并不需要专门设计的奖励函数，可应用于插入操作等实际机器操作中。

Jul, 2017

利用演示克服强化学习中的探索问题

本研究利用示范来解决强化学习中稀疏奖励的探索问题，成功地学习了长期、多步骤的机器人任务，方法使用了DDPG和HER算法，提供了一种在仿真机器人任务上比以往RL算法快一个数量级的加速，方法易于实现，能够解决在行为克隆和RL算法中都无法解决的任务，并且往往表现优于示范策略。

Sep, 2017

从活动描述中进行交互式学习

提出了一种交互式学习协议，可以通过口头描述训练实现请求响应的代理程序，相对于强化学习和模仿学习，这种协议提供了更多的反馈并提高了样本效率，通过实验和理论保证，证明了该方法的优势在于更加样本高效且具有竞争性的成功率。

Feb, 2021

PEBBLE: 通过重标记经验和无监督预先训练实现高效互动式强化学习

本文提出了一种基于人机交互的强化学习方法，通过主动查询教师偏好，学习奖励模型并使用其训练智能体，使智能体能够学习更加复杂的任务，包括各种运动和机器人操作技能。与标准奖励函数相比，我们的方法能够利用实时人类反馈有效地预防奖赏利用和学习新行为。

Jun, 2021

基于演示引导的强化学习与学得技能

本文提出了一种基于示教引导的强化学习方法，该方法通过提取任务中共享的子任务结构，从而显著提高学习效率，并且在迷宫导航和复杂机器人操纵任务上进行了验证。

Jul, 2021

使用示范加速强化学习和规划：一项调查

本综述介绍了在复杂环境下采用启发式专家经验演示来加速强化学习决策的优点，讨论了演示在决策学习中各种应用方法，并提供了一个实用的流程示例用于生成和利用演示。

Mar, 2023

基于网格的强化学习环境中的通用和可解释知识学习

使用程序合成方法对深度强化学习代理进行模仿，以了解其学习的概念和决策过程。

Sep, 2023

超越联合演示：高效多智能体强化学习的个性化专家指导

在多智能体强化学习中，引入个性化专家演示，为每个个体智能体或团队中的每个个体智能体类型定制，以实现合作任务，并展示其在离散和连续环境中的性能优于现有算法。

Mar, 2024