基于不确定性感知的强化学习，用于人在循环机器人代理的决策制定

Mar, 2023

基于不确定性感知的强化学习，用于人在循环机器人代理的决策制定

Decision Making for Human-in-the-loop Robotic Agents via Uncertainty-Aware Reinforcement Learning

Siddharth Singi, Zhanpeng He, Alvin Pan, Sandip Patel, Gunnar A. Sigurdsson...

TL;DR本文介绍一种基于强化学习的半自主智能体，当其对任务成功的信心较低时，通过估计当前状态回报的方差来请求外部帮助，该方法在离线训练期间没有访问专家，并在多个离散导航问题中有效利用有限的专家调用预算。

Abstract

In a human-in-the-loop paradigm, a robotic agent is able to act mostly autonomously in solving a task, but can request help from an external expert when needed. However, knowing when to request such assistance is critical: too few requests can lead to the robot making mistakes, but too

human-in-the-loop reinforcement learning semi-autonomous agent variance estimation limited expert calls

发现论文，激发创造

异步人类反馈下的自主机器人强化学习

实现自主学习的算法对于在真实环境中的机器人来说一直是个挑战，但本研究描述了一个实际的强化学习系统，通过在真实环境中进行训练，并借助人类的反馈来实现不间断的改进。该系统在不需要设计奖励函数或重置机制的情况下，通过自我监督学习算法和人类反馈产生的信息来指导探索和筛选学习策略。在模拟环境和真实世界中的机器人任务上的评估结果表明，该系统能够有效地学习行为。

Oct, 2023

利用强化学习代理为人在环境中提供遵守建议的验证

本文介绍了一种基于 Tree-based lingua-franca 的新颖交流方法，并探索了基于此方法的 Human-in-the-loop 反馈机制，提供具有可解释性的方法以解决 Advice-Conformance Verification 问题，并通过实验证明了该方法的有效性和有效性。

Oct, 2022

基于人机互动的智能体无关强化学习

本论文探讨了一种 agent-agnostic 模式的 Human-in-the-Loop 强化学习教学方案，以期将人类教师的有益特性融入强化学习中，同时试验了在简单领域中应用 action pruning、reward shaping 和 training in simulation 等已有方法并将其表现为本模式的特例。

Jan, 2017

机器与人类交替学习

本文提出一种具有自适应性的算法，使得现有的强化学习代理可以在机器和人类代理之间进行控制转换，在类似环境中可以找到多个转换策略序列，并演示了该算法在半自动驾驶场景中具有优越性。

Feb, 2020

透过指引提炼的可教授强化学习

本研究提出了一种基于 “可教学” 的决策系统的交互式学习监督范式，能够通过学习外部教师提供的结构化建议，解决复杂任务的学习难度，对拼图、导航和运动等各种任务需求的人工干预也相对较少。

Mar, 2022

DQN-TAMER: 人类参与反馈的强化学习与难以处理的反馈

本研究使用即时反馈，通过引入人与环境的互动，提高了强化学习在机器人学中的应用性，并提出了一种 DQN-TAMER 算法，在模拟和现实环境中都有优越表现。

Oct, 2018

最小化人力成本的演示学习框架

本文探讨了机器人学习中的共享自治问题，提出了一种基于多臂赌博机算法的控制器选择方法，并通过模拟和实现任务验证了该方法降低了人类成本。

Jun, 2023

风险敏感和鲁棒的基于模型的强化学习和规划

本研究主要关注序列决策算法中的不确定性和风险问题，通过探索规划和强化学习两种方法，尤其是面向基于模型算法的研究，旨在缓解 epistemic 和 aleatoric 不确定性问题。

Apr, 2023

通过主动奖励学习实现证明反馈高效强化学习

本文提供一种以人类在强化学习中的角色为基础的算法框架，旨在从理论角度解决设计有效的奖励函数的问题。我们提供了一种主动学习的 RL 算法，通过仅在某些状态动作对上询问少量关于任务奖励的问题，保证以高概率提供几乎最优的任务策略。

Apr, 2023

利用人类指导提升深度强化学习任务

本文综述了五个最近的学习框架，这些框架主要依赖人类指导，而不是传统的一步一步的动作演示，评估了每个框架的动机、假设和实现，并讨论了可能的未来研究方向。

Sep, 2019