探寻、开发或倾听：在三维世界中结合人类反馈和策略模型，加速深度强化学习

Sep, 2017

探寻、开发或倾听：在三维世界中结合人类反馈和策略模型，加速深度强化学习

Explore, Exploit or Listen: Combining Human Feedback and Policy Model to Speed up Deep Reinforcement Learning in 3D Worlds

PDF

Zhiyu Lin, Brent Harrison, Aaron Keech, Mark O. Riedl

TL;DR提出了一种在三维虚拟环境中使用离散人类反馈增强深度学习智能体性能的方法，通过将深度强化学习扩展到模型置信度和一致性以确定听取人类反馈、利用当前策略模型或探索智能体环境的最佳时机，以平衡这三种策略来增强其稳健性，实验结果展示所提出的技术改善了使用 Minecraft 导航三维环境的深度强化学习的训练速度和性能，并且当人类反馈不准确或未提供时仍具有良好的鲁棒性。

Abstract

We describe a method to use discrete human feedback to enhance the performance of deep learning agents in virtual three-dimensional enviro

deep learning reinforcement learning human feedback virtual environments performance

发现论文，激发创造

基于策略相关的人类反馈的深度强化学习

本研究在 COACH 算法基础上，对代理策略表达进行了修改，运用深度神经网络实现按照高维视觉输入完成任务的学习，并通过 Minecraft 中实时人类反馈，10-15 分钟即可完成任务。

Feb, 2019

加速强化学习的人类启发式框架

本文提出了一种基于人类启发的框架以提高采样效率，其中通过逐步提供简单但相似的任务来适应复杂的强化学习任务，并且使用任何转移学习方法来减少样本复杂性而不增加计算复杂性，实验表明该框架能够在优化问题方面表现出良好的性能。

Feb, 2023

使用 SLAM 增强的深度强化学习玩《毁灭战士》游戏

该研究使用前人认为人类认知中的语义概念和抽象能力，将对象和结构元素添加到图像输入，改进了深度 Q 学习网络（DQN）代理模型的策略学习框架，并在 3D 第一人称射击游戏 “毁灭战士” 中表现出更好和更有效的策略。

Dec, 2016

将人类反馈学习与知识工程相结合，在 Minecraft 中解决分层任务

本文介绍了一种基于人类示范数据进行仿真学习的方法以及使用人类反馈来训练图像分类器的方法，将这些模块与估算的 Odometry 地图相结合，以自然层次结构利用人类知识的强大状态机，并将该混合智能方法与端到端机器学习和纯工程解决方案进行比较。

Dec, 2021

基于强化学习的具身智能体通过互动与多感知模拟对人类用户进行建模

本文研究交互式机器学习的发展和应用，探讨人类反馈对于机器人行为的影响和提高机器人性能的方法，发现人类反馈参数对于任务性能的影响很大，需要更好地了解人类反馈的潜在变量以更好地处理人机交互领域的问题。

Jan, 2017

强化学习建模 3D 形状

本文提出了一种基于深度强化学习的两步神经框架来模拟 Maya 软件中的建模过程，并且采用新颖的训练算法来 efficient 训练模拟器，从而达到模拟生成 3D 模型的效果。

Mar, 2020

基于主动探索的样本有效强化学习来自人类反馈

利用基于偏好的反馈为增强学习中的许多应用程序提供重要支持，本研究通过离线情境决斗机制问题的算法和多项式最坏情况遗憾边界，提供了一种在人类反馈训练大型语言模型中有效识别良好策略的方法，并在三个实际数据集上通过较少的人类偏好样本取得更好的性能。

Dec, 2023

PEBBLE: 通过重标记经验和无监督预先训练实现高效互动式强化学习

本文提出了一种基于人机交互的强化学习方法，通过主动查询教师偏好，学习奖励模型并使用其训练智能体，使智能体能够学习更加复杂的任务，包括各种运动和机器人操作技能。与标准奖励函数相比，我们的方法能够利用实时人类反馈有效地预防奖赏利用和学习新行为。

Jun, 2021

人类不是玻尔兹曼分布：应对强化学习中人类反馈与交互建模的挑战与机遇

该论文呼吁从不同学科出发进行研究，以解决人类如何向人工智能提供反馈以及如何构建更健壮的基于人类协作的强化学习系统的关键问题，并提出人类模型必须是个性化，情境化和动态的观点。

Jun, 2022

离线强化学习与人类反馈的部署

提出一种基于人类监督的强化学习在线部署框架，包含两种方法：一是通过模型选择和上置信区间算法自适应选择候选离线强化学习模型进行部署，二是在监督信号到达时在线微调模型。通过实证验证，这些方法有效地应用于机器人运动控制和交通信号控制任务中。

Mar, 2023