可接受性迹下的奖励、策略及优势反馈人机协同的政策梯度算法的收敛性

ICMLSep, 2021

可接受性迹下的奖励、策略及优势反馈人机协同的政策梯度算法的收敛性

Convergence of a Human-in-the-Loop Policy-Gradient Algorithm With Eligibility Trace Under Reward, Policy, and Advantage Feedback

PDF

Ishaan Shah, David Halpern, Kavosh Asadi, Michael L. Littman

TL;DR本文探讨应用于人类 - 人工智能加强学习中的 COACH 算法，分析了不同类型的反馈策略对算法的影响，提出了一种收敛性更好的变种 E-COACH，并将其与其他强化学习算法进行比较。

Abstract

fluid human-agent communication is essential for the future of human-in-the-loop reinforcement learning. An agent must respond appropriately to feedback from its human trainer even before they have significant ex

fluid human-agent communication reinforcement learning feedback schemes coach algorithm e-coach

发现论文，激发创造

基于策略相关的人类反馈的深度强化学习

本研究在 COACH 算法基础上，对代理策略表达进行了修改，运用深度神经网络实现按照高维视觉输入完成任务的学习，并通过 Minecraft 中实时人类反馈，10-15 分钟即可完成任务。

Feb, 2019

基于策略相关人类反馈的交互式学习

本文研究了利用正反馈进行与人类互动学习行为的问题，并提出了一种名为 “COACH” 的算法来解决在此过程中发现的问题，该算法能成功地在实体机器人上学习多种行为。

Jan, 2017

DQN-TAMER: 人类参与反馈的强化学习与难以处理的反馈

本研究使用即时反馈，通过引入人与环境的互动，提高了强化学习在机器人学中的应用性，并提出了一种 DQN-TAMER 算法，在模拟和现实环境中都有优越表现。

Oct, 2018

利用强化学习代理为人在环境中提供遵守建议的验证

本文介绍了一种基于 Tree-based lingua-franca 的新颖交流方法，并探索了基于此方法的 Human-in-the-loop 反馈机制，提供具有可解释性的方法以解决 Advice-Conformance Verification 问题，并通过实验证明了该方法的有效性和有效性。

Oct, 2022

使用 Actor-Critic 强化学习训练机器人代理人时进行同时控制和人类反馈

该研究探索一种使用人类提供的同时人类控制和反馈信号来训练一个强化学习机器人代理的方法，并旨在缩小用户控制方法和控制的机器人数量之间的差距。作者采用物理和模拟机器人系统的实验比较了在环境中获得奖励、由人类提供奖励以及这两种方法的组合下的训练表现，结果表明人类反馈可以提高代理的训练效果。

Jun, 2016

目标的脚印：从人 - 环交互反馈中获得目标条件的探索

通过非专业用户提供的低质量、非同步和嘈杂的反馈，人类引导探索（HuGE）技术在强化学习中引导探索，无需精心设计奖励规范。这种方法通过分叉人类反馈和策略学习来实现：人类反馈引导探索，而来自探索数据的自我监督学习产生无偏的策略。HuGE 能够借助非专业用户的众包反馈在模拟环境中学习各种具有挑战性的多阶段机器人导航和操纵任务。此外，这个方法还可以通过来自人类监督员的偶尔异步反馈来直接在真实世界中学习。

Jul, 2023

PEBBLE: 通过重标记经验和无监督预先训练实现高效互动式强化学习

本文提出了一种基于人机交互的强化学习方法，通过主动查询教师偏好，学习奖励模型并使用其训练智能体，使智能体能够学习更加复杂的任务，包括各种运动和机器人操作技能。与标准奖励函数相比，我们的方法能够利用实时人类反馈有效地预防奖赏利用和学习新行为。

Jun, 2021

基于探索驱动的强化学习策略优化在 RLHF 中的理论洞察：高效数据利用

基于人类反馈的强化学习 (RLHF) 在仅依赖少量人类反馈的情况下取得了令人瞩目的实证成功。本文提出了一种基于策略优化的 RLHF 算法 (PO-RLHF)，该算法不假设对奖励函数有先验知识，并通过基于轨迹的比较反馈来推断奖励函数。我们提供了具有低查询复杂度的 PO-RLHF 的性能界限，从而揭示了为什么少量人类反馈可能足以获得良好的 RLHF 性能。我们的工作的一个重要创新是采用轨迹级椭圆势分析技术来推断比较查询下的奖励函数参数，而非使用奖励观测。我们在线性和神经函数逼近两种情景下提供和分析了算法：PG-RLHF 和 NN-PG-RLHF。

Feb, 2024

如何在强化学习中高效地查询人类反馈？

研究提出了一种有效的轨迹对采样方法，用于探索隐藏的奖励函数，以便在收集人类反馈之前准确地学习，比现有文献更少地需要人类反馈量来学习基于偏好模型的最优策略，可以考虑线性和低秩 MDP

May, 2023

通过主动奖励学习实现证明反馈高效强化学习

本文提供一种以人类在强化学习中的角色为基础的算法框架，旨在从理论角度解决设计有效的奖励函数的问题。我们提供了一种主动学习的 RL 算法，通过仅在某些状态动作对上询问少量关于任务奖励的问题，保证以高概率提供几乎最优的任务策略。

Apr, 2023