加速强化学习的人类启发式框架

Feb, 2023

Human-Inspired Framework to Accelerate Reinforcement Learning

Ali Beikmohammadi, Sindri Magnússon

TL;DR本文提出了一种基于人类启发的框架以提高采样效率，其中通过逐步提供简单但相似的任务来适应复杂的强化学习任务，并且使用任何转移学习方法来减少样本复杂性而不增加计算复杂性，实验表明该框架能够在优化问题方面表现出良好的性能。

Abstract

While deep reinforcement learning (RL) is becoming an integral part of good decision-making in data science, it is still plagued with sample inefficiency. This can be challenging when applying deep-RL in real-world environments where physical interactions are expensive and can risk sys

deep reinforcement learning sample efficiency human-inspired framework transfer learning optimization problems

发现论文，激发创造

利用人类指导提升深度强化学习任务

本文综述了五个最近的学习框架，这些框架主要依赖人类指导，而不是传统的一步一步的动作演示，评估了每个框架的动机、假设和实现，并讨论了可能的未来研究方向。

Sep, 2019

人在环路强化学习的小样本偏好学习

使用多任务学习来实现基于人类反馈的强化学习，通过将偏好模型训练在以前的任务数据上，我们仅需要很少的查询就可以在 Meta-World 中训练出具有更好效果的机器人策略模型。

Dec, 2022

数据效率的分层强化学习

本文研究如何构建通用且高效的层次强化学习算法，其中较低层的控制器通过自动学习和提出的目标来实现上级控制器的监督，并使用脱离策略的经验来提高效率。我们称此算法为 HIRO，并在模拟机器人上的实验中表现出高性能和高样本效率。

May, 2018

外部模型驱动智能体：增强环境采样的强化学习

提出了一种利用兴趣领域和通过兴趣领域进行行为塑造的强化学习算法框架，用于在变化环境中提高外部模型的适应效率。通过测试结果表明，该方法在效率和性能方面优于基准算法。

Jun, 2024

MineRL 2019 赛事：基于人类先验知识的高效强化学习

介绍了 MineRL 竞赛，该竞赛旨在利用人类先验知识实现样本高效的强化学习，提供了 Minecraft ObtrainDiamond 任务和 MineRL-v0 数据集，并要求参赛者使用 Malmo 环境中的有限样本来解决 ObtainDiamond 任务。

Apr, 2019

多任务强化学习中的层次和可解释技能获取

本文提出了一种用于有效的多任务强化学习的新框架，该框架可以训练代理人使用分层策略，决定何时使用先前学习的策略和何时学习新技能。该方法通过给代理人提供随机时间语法来帮助代理人学习分层策略中必要的复杂时间依赖关系，并在 Minecraft 游戏中进行了验证。

Dec, 2017

探寻、开发或倾听：在三维世界中结合人类反馈和策略模型，加速深度强化学习

提出了一种在三维虚拟环境中使用离散人类反馈增强深度学习智能体性能的方法，通过将深度强化学习扩展到模型置信度和一致性以确定听取人类反馈、利用当前策略模型或探索智能体环境的最佳时机，以平衡这三种策略来增强其稳健性，实验结果展示所提出的技术改善了使用 Minecraft 导航三维环境的深度强化学习的训练速度和性能，并且当人类反馈不准确或未提供时仍具有良好的鲁棒性。

Sep, 2017

开放式任务空间中的人类时间尺度适应

本文介绍了一种训练 RL 代理器的方法，通过使用 meta-reinforcement 学习、基于注意力的内存结构和有效的自动课程表，该代理器可以快速适应开放式的 3D 问题，并具有自适应性。

Jan, 2023

深度强化学习下的行走学习

本文提出了一种基于最大熵强化学习的样本有效的深度强化学习算法，用于学习独立于机器人动力学模型的实际机器人行走姿势，仅需要少量试验即可。实验结果表明，我们的方法可以帮助机器人在约两个小时内直接从零开始建立稳定步态，而不需要任何模型或仿真。同时，我们展现了本算法在单个较佳超参数上实现了最先进的性能，与环境中的适度变化相容。

Dec, 2018

基于偏好的快速适应元强化学习

本研究基于元强化学习框架，探究了在人机交互中，通过基于偏好的反馈，而非数值奖励，在少数试验中快速调整策略以适应新任务的机制，并通过信息论技术设计问题序列来最大化人类专家的信息获取效率，实验结果表明其显著优于传统算法。

Nov, 2022