基于策略相关的人类反馈的深度强化学习

Feb, 2019

基于策略相关的人类反馈的深度强化学习

Deep Reinforcement Learning from Policy-Dependent Human Feedback

Dilip Arumugam, Jun Ki Lee, Sophie Saskin, Michael L. Littman

TL;DR本研究在 COACH 算法基础上，对代理策略表达进行了修改，运用深度神经网络实现按照高维视觉输入完成任务的学习，并通过 Minecraft 中实时人类反馈，10-15 分钟即可完成任务。

Abstract

To widen their accessibility and increase their utility, intelligent agents must be able to learn complex behaviors as specified by (non-expert) human users. Moreover, they will need to learn these behaviors within a reasonable amount of time while efficiently leveraging the sparse fee

intelligent agents complex behavior learning human feedback deep coach algorithm minecraft

发现论文，激发创造

基于策略相关人类反馈的交互式学习

本文研究了利用正反馈进行与人类互动学习行为的问题，并提出了一种名为 “COACH” 的算法来解决在此过程中发现的问题，该算法能成功地在实体机器人上学习多种行为。

Jan, 2017

可接受性迹下的奖励、策略及优势反馈人机协同的政策梯度算法的收敛性

本文探讨应用于人类 - 人工智能加强学习中的 COACH 算法，分析了不同类型的反馈策略对算法的影响，提出了一种收敛性更好的变种 E-COACH，并将其与其他强化学习算法进行比较。

Sep, 2021

基于深度神经网络的策略互动式学习与修正反馈

用 Deep COACH 方法基于人类纠正反馈进行深度强化学习训练，不需要奖励函数，可解决复杂问题，实验证明比 DRL 更快速地成功学习连续动作空间的策略。

Sep, 2018

探寻、开发或倾听：在三维世界中结合人类反馈和策略模型，加速深度强化学习

提出了一种在三维虚拟环境中使用离散人类反馈增强深度学习智能体性能的方法，通过将深度强化学习扩展到模型置信度和一致性以确定听取人类反馈、利用当前策略模型或探索智能体环境的最佳时机，以平衡这三种策略来增强其稳健性，实验结果展示所提出的技术改善了使用 Minecraft 导航三维环境的深度强化学习的训练速度和性能，并且当人类反馈不准确或未提供时仍具有良好的鲁棒性。

Sep, 2017

适应性棋局环境中的强化学习用于检测人类可理解概念

本研究展示了一种探测自学习算法在训练过程中内部概念的方法，以国际象棋游戏代理为例进行了演示，此方法适用于没有大量计算资源或机器学习模型的研究团体。

Nov, 2022

人类不是玻尔兹曼分布：应对强化学习中人类反馈与交互建模的挑战与机遇

该论文呼吁从不同学科出发进行研究，以解决人类如何向人工智能提供反馈以及如何构建更健壮的基于人类协作的强化学习系统的关键问题，并提出人类模型必须是个性化，情境化和动态的观点。

Jun, 2022

通过从文本的迁移学习进行深度强化学习的人类指令遵循

通过使用预先训练的文本语言模型（BERT），我们提出了一种简单的方法来训练使用深度 RL 的指令跟踪代理，以适应自然人指令，从而在人类给出自然指令的情况下，实现从合成模板命令到指令的零 - shot 传输。

May, 2020

基于实时反馈的指令跟随持续学习

通过人机协作交互提供的实时二元反馈，用自然语言训练指令遵从代理的问题被研究。将学习作为一种上下文医师问题，将用户反馈转换为立即奖励，证明了其在提高指令执行效果方面具有优势，并且反馈信号与监督式演示数据的学习信号基本等价。

Dec, 2022

透过指引提炼的可教授强化学习

本研究提出了一种基于 “可教学” 的决策系统的交互式学习监督范式，能够通过学习外部教师提供的结构化建议，解决复杂任务的学习难度，对拼图、导航和运动等各种任务需求的人工干预也相对较少。

Mar, 2022

使用 Actor-Critic 强化学习训练机器人代理人时进行同时控制和人类反馈

该研究探索一种使用人类提供的同时人类控制和反馈信号来训练一个强化学习机器人代理的方法，并旨在缩小用户控制方法和控制的机器人数量之间的差距。作者采用物理和模拟机器人系统的实验比较了在环境中获得奖励、由人类提供奖励以及这两种方法的组合下的训练表现，结果表明人类反馈可以提高代理的训练效果。

Jun, 2016