多个教师的主动奖励学习

Mar, 2023

Active Reward Learning from Multiple Teachers

Peter Barnett, Rachel Freedman, Justin Svegliato, Stuart Russell

TL;DR利用多种来源的人类反馈信息可提高强化学习算法的效率和准确性，通过算法来评估不同来源反馈信息的价值，可以有效地选择最具价值的教师进行反馈，从而提高人类价值和人工智能行为的一致性。

Abstract

reward learning algorithms utilize human feedback to infer a reward function, which is then used to train an AI system. This human feedback

reward learning ai behavior human feedback value of information algorithmic evaluation

发现论文，激发创造

从多元人类反馈中学习奖励函数：最优化整合演示和偏好

本文提出了一种从用户收集多源数据的框架，该框架结合了演示和偏好查询以学习奖励函数，可用于机器人模型中，并且在移动操作器 Fetch 上执行的模拟实验和用户研究验证了我们的方法的优越性和可用性。

Jun, 2020

强化学习中的主动教师选择

隐藏效用强盗（HUB）框架及主动教师选择算法（ATS）在多教师情境下学习准确奖励模型方面表现出色，为活跃教师选择提供了有力支持，并促进了对于强化学习的未来研究。

Oct, 2023

交互自主学习偏好

研究人机交互中智能机器人的学习奖励功能从而完成任务，探讨通过对多种机器人轨迹的比较反馈方式学习机器的奖励功能，包括两两比较、评分、最佳选择等，并提出主动学习技术，以优化从用户反馈中获得的期望信息，进而在自主驾驶模拟、家庭机器人、标准强化学习等领域展示了这种方法的适用性。

Oct, 2022

MORAL：通过多目标强化主动学习将人工智能与人类规范对齐

我们提出了多目标强化主动学习 (Multi-Objective Reinforced Active Learning, MORAL) 方法，通过维护标量化权重的分布，交互式地调整深度强化学习代理向各种偏好的方向发展，从而将社会规范的不同展示组合成帕累托最优策略，并消除了计算多个策略的需要。我们在两种场景中对 MORAL 的有效性进行了实证验证，并将其视为学习奖励的多目标强化学习 (Multi-objective RL) 的一步，弥合了当前奖励学习和机器伦理文献之间的差距。

Dec, 2021

自动设计有趣的多智能体环境

通过提供内在的奖励机制，增加多智能体环境中 RL 学习的效率，我们在多智能体 Hide and Seek 和单智能体迷宫任务中，考察了一系列根据预测问题构建的内在老师奖励，并发现其中价值不一致是最为稳健和高效的奖励方式。

Mar, 2022

特征扩张奖励学习：重新思考人类输入

本文提出了一种人与机器人交互的新方式，通过以人类指导机器人从高表达特征的状态到不表达该特征的状态的方法来学习机器人掌握的特征，然后将其集成到奖励函数中，大大降低了样本复杂度并提高了奖励的泛化性能。

Jun, 2020

教学的学习

本文介绍一种名为 “学习教学” 的方法，它利用两个智能代理相互交互：一个学生模型和一个教师模型。教师模型利用学生模型的反馈来优化自己的教学策略，以达到教师和学生的共同进化，并在各种机器学习任务下通过使用深度神经网络等模型来展示这一方法的实用价值。

May, 2018

无监督感知奖励用于模仿学习

利用深度模型学习中间视觉表示的抽象能力来从少量的演示序列中快速推断知觉奖励函数，以便在真实世界环境中使用强化学习智能体执行任务。

Dec, 2016

奖励合理 (隐式) 选择：奖励学习的统一形式化

研究如何从人类的行为或反馈中学习奖励函数，并提出一种单一的形式化框架，将各种不同类型的行为诠释为人类所做出的奖励选择，这既可用于解读过去的工作，又能为今后的研究提供借鉴和启迪。

Feb, 2020

通过内在奖励调节行为：一项调查和实证研究

本文通过在一个类似于赌博机的并行学习测试平台中比较 14 个不同的回报机制，探索并比较不同的内在回报机制，重点突出了奖励和预测学习器之间的交互作用和内省预测学习器的重要性。结果表明，基于学习量的内在奖励可以生成有用的行为，如果每个学习器是内省的。

Jun, 2019