DQN-TAMER: 人类参与反馈的强化学习与难以处理的反馈

Oct, 2018

DQN-TAMER: 人类参与反馈的强化学习与难以处理的反馈

DQN-TAMER: Human-in-the-Loop Reinforcement Learning with Intractable Feedback

Riku Arakawa, Sosuke Kobayashi, Yuya Unno, Yuta Tsuboi, Shin-ichi Maeda

TL;DR本研究使用即时反馈，通过引入人与环境的互动，提高了强化学习在机器人学中的应用性，并提出了一种 DQN-TAMER 算法，在模拟和现实环境中都有优越表现。

Abstract

Exploration has been one of the greatest challenges in reinforcement learning (RL), which is a large obstacle in the application of RL to robotics. Even with state-of-the-art RL algorithms, building a well-learne

reinforcement learning human-in-the-loop real-time feedback dqn-tamer robotics

发现论文，激发创造

深度 TAMER：高维状态空间中的交互式智能体塑形

本论文提出了 Deep TAMER，这是 TAMER 框架的扩展，利用深度神经网络的表征能力快速学习复杂任务，通过仅仅 15 分钟的人类反馈训练出比人类更优秀的 Atart 游戏 “保龄球” 的自主学习代理。

Sep, 2017

利用人类反馈的强化学习来提升多模态交互代理

使用人类反馈的强化学习方法，通过记录人类与模拟世界中的代理进行交互，构建能够自然交互和学习的代理行为，有效提高了代理在复杂领域中的行为表现。

Nov, 2022

异步人类反馈下的自主机器人强化学习

实现自主学习的算法对于在真实环境中的机器人来说一直是个挑战，但本研究描述了一个实际的强化学习系统，通过在真实环境中进行训练，并借助人类的反馈来实现不间断的改进。该系统在不需要设计奖励函数或重置机制的情况下，通过自我监督学习算法和人类反馈产生的信息来指导探索和筛选学习策略。在模拟环境和真实世界中的机器人任务上的评估结果表明，该系统能够有效地学习行为。

Oct, 2023

通过主动奖励学习实现证明反馈高效强化学习

本文提供一种以人类在强化学习中的角色为基础的算法框架，旨在从理论角度解决设计有效的奖励函数的问题。我们提供了一种主动学习的 RL 算法，通过仅在某些状态动作对上询问少量关于任务奖励的问题，保证以高概率提供几乎最优的任务策略。

Apr, 2023

PEBBLE: 通过重标记经验和无监督预先训练实现高效互动式强化学习

本文提出了一种基于人机交互的强化学习方法，通过主动查询教师偏好，学习奖励模型并使用其训练智能体，使智能体能够学习更加复杂的任务，包括各种运动和机器人操作技能。与标准奖励函数相比，我们的方法能够利用实时人类反馈有效地预防奖赏利用和学习新行为。

Jun, 2021

基于强化学习的具身智能体通过互动与多感知模拟对人类用户进行建模

本文研究交互式机器学习的发展和应用，探讨人类反馈对于机器人行为的影响和提高机器人性能的方法，发现人类反馈参数对于任务性能的影响很大，需要更好地了解人类反馈的潜在变量以更好地处理人机交互领域的问题。

Jan, 2017

人类不是玻尔兹曼分布：应对强化学习中人类反馈与交互建模的挑战与机遇

该论文呼吁从不同学科出发进行研究，以解决人类如何向人工智能提供反馈以及如何构建更健壮的基于人类协作的强化学习系统的关键问题，并提出人类模型必须是个性化，情境化和动态的观点。

Jun, 2022

基于不确定性感知的强化学习，用于人在循环机器人代理的决策制定

本文介绍一种基于强化学习的半自主智能体，当其对任务成功的信心较低时，通过估计当前状态回报的方差来请求外部帮助，该方法在离线训练期间没有访问专家，并在多个离散导航问题中有效利用有限的专家调用预算。

Mar, 2023

加速强化学习的人类启发式框架

本文提出了一种基于人类启发的框架以提高采样效率，其中通过逐步提供简单但相似的任务来适应复杂的强化学习任务，并且使用任何转移学习方法来减少样本复杂性而不增加计算复杂性，实验表明该框架能够在优化问题方面表现出良好的性能。

Feb, 2023

基于策略相关的人类反馈的深度强化学习

本研究在 COACH 算法基础上，对代理策略表达进行了修改，运用深度神经网络实现按照高维视觉输入完成任务的学习，并通过 Minecraft 中实时人类反馈，10-15 分钟即可完成任务。

Feb, 2019