利用人类指导提升深度强化学习任务

IJCAISep, 2019

利用人类指导提升深度强化学习任务

Leveraging Human Guidance for Deep Reinforcement Learning Tasks

Ruohan Zhang, Faraz Torabi, Lin Guan, Dana H. Ballard, Peter Stone

TL;DR本文综述了五个最近的学习框架，这些框架主要依赖人类指导，而不是传统的一步一步的动作演示，评估了每个框架的动机、假设和实现，并讨论了可能的未来研究方向。

Abstract

reinforcement learning agents can learn to solve sequential decision tasks by interacting with the environment. Human knowledge of how to solve these tasks can be incorporated using imitation learning, where the

reinforcement learning human guidance imitation learning learning frameworks future research directions

发现论文，激发创造

利用人类辅助完成顺序决策任务的最新进展

本文综述了五种最近主要依赖于人类指导的机器学习框架及其动机，假设和实施，并讨论可能的未来研究方向。

Jul, 2021

透过指引提炼的可教授强化学习

本研究提出了一种基于 “可教学” 的决策系统的交互式学习监督范式，能够通过学习外部教师提供的结构化建议，解决复杂任务的学习难度，对拼图、导航和运动等各种任务需求的人工干预也相对较少。

Mar, 2022

加速强化学习的人类启发式框架

本文提出了一种基于人类启发的框架以提高采样效率，其中通过逐步提供简单但相似的任务来适应复杂的强化学习任务，并且使用任何转移学习方法来减少样本复杂性而不增加计算复杂性，实验表明该框架能够在优化问题方面表现出良好的性能。

Feb, 2023

向人类请教：利用人类指令提升强化学习的泛化能力

本文提出通过使用自然语言指令和行动轨迹演示来自动分解分层任务，以解决在稀疏奖励的强化学习设置中的复杂多任务问题，并证明人类演示有助于解决最复杂的任务，同时允许该模型再未见数据的情况下推广学习，从而使训练好的代理人具有可解释的行为。

Nov, 2020

意见引导的强化学习

人类导引在强化学习中经常被用来提升学习代理的性能。然而，人类的见解通常只是意见和猜测，而不是明确的论证。尽管意见存在不确定性，但它们往往比硬证据早出现。因此，通过意见来引导强化学习代理提供了更有效的学习过程的潜力，但也面临以形式化方式建模和管理意见的挑战。本文介绍了一种通过意见来引导强化学习代理的方法，并提供了一种端到端的方法来建模和管理顾问的意见。通过合成和人类顾问以及不同级别的不确定性和多个建议策略的评估，我们评估了该方法的效用。结果表明，即使是不确定的意见也能提高强化学习代理的性能，从而获得更高的奖励、更高效的探索和更好的加强策略。虽然我们在一个简化的拓扑运行示例中演示了我们的方法，但我们的方法也适用于具有更高维度的复杂问题。

May, 2024

通过从文本的迁移学习进行深度强化学习的人类指令遵循

通过使用预先训练的文本语言模型（BERT），我们提出了一种简单的方法来训练使用深度 RL 的指令跟踪代理，以适应自然人指令，从而在人类给出自然指令的情况下，实现从合成模板命令到指令的零 - shot 传输。

May, 2020

基于演示引导的强化学习与学得技能

本文提出了一种基于示教引导的强化学习方法，该方法通过提取任务中共享的子任务结构，从而显著提高学习效率，并且在迷宫导航和复杂机器人操纵任务上进行了验证。

Jul, 2021

基于强化学习的数字人类互动推荐决策

本研究基于强化学习、多模态嵌入和图嵌入等技术，设计了一个新型的数字人互动推荐代理框架，以提高个性化推荐和数字人代理的效率和准确性。实验结果表明该框架具有更好的个性化客户参与和更好的客户体验。

Oct, 2022

使用示范加速强化学习和规划：一项调查

本综述介绍了在复杂环境下采用启发式专家经验演示来加速强化学习决策的优点，讨论了演示在决策学习中各种应用方法，并提供了一个实用的流程示例用于生成和利用演示。

Mar, 2023

第三人称模仿学习

本文提出了一种利用领域混淆技术进行无监督第三人称模仿学习的方法，证明了该方法在点质点领域、伸手领域和倒立摆等领域的第三人称模仿学习中取得成功。

Mar, 2017