强化学习中的主动教师选择

Oct, 2023

Active teacher selection for reinforcement learning from human feedback

Rachel Freedman, Justin Svegliato, Kyle Wray, Stuart Russell

TL;DR隐藏效用强盗（HUB）框架及主动教师选择算法（ATS）在多教师情境下学习准确奖励模型方面表现出色，为活跃教师选择提供了有力支持，并促进了对于强化学习的未来研究。

Abstract

reinforcement learning from human feedback (RLHF) enables machine learning systems to learn objectives from human feedback. A core limitat

reinforcement learning human feedback hidden utility bandit active teacher selection reward modeling

发现论文，激发创造

多个教师的主动奖励学习

利用多种来源的人类反馈信息可提高强化学习算法的效率和准确性，通过算法来评估不同来源反馈信息的价值，可以有效地选择最具价值的教师进行反馈，从而提高人类价值和人工智能行为的一致性。

Mar, 2023

基于主动探索的样本有效强化学习来自人类反馈

利用基于偏好的反馈为增强学习中的许多应用程序提供重要支持，本研究通过离线情境决斗机制问题的算法和多项式最坏情况遗憾边界，提供了一种在人类反馈训练大型语言模型中有效识别良好策略的方法，并在三个实际数据集上通过较少的人类偏好样本取得更好的性能。

Dec, 2023

强化学习中主动多任务学习的力量

通过多任务表示学习的方式，我们将人类反馈强化学习 (RLHF) 问题建模为一种上下文二分问题，并假设存在一种共同线性表示。我们证明了考虑任务相关性，并为具有不同任务相关性的源任务分配不同样本数量可以降低多任务 RLHF 中的样本复杂度。此外，由于表示学习，目标任务的样本复杂度仅与潜在空间的维度成线性关系。

May, 2024

强化学习与人类反馈调查

深入探讨人机交互技术中基于人类反馈的强化学习（RLHF）的基本原理、应用及其研究趋势。

Dec, 2023

教育中的强化学习：多臂赌博机方法

本研究通过上下文化和模拟累计奖励来解决教育上的干预建议问题，采用强化学习的代理模型结合混合学习方法，景点在线平台的自动化功能

Nov, 2022

多轮强化学习从人类偏好反馈中学习

本研究通过发展新的强化学习方法，解决了基于喜好反馈的多轮对话中规划和多轮互动问题，通过实验证明该算法在教育对话环境中超越了基线模型，同时在含有明确奖励的环境中也能达到基于奖励强化学习模型的性能

May, 2024

强化学习从人类反馈中的开放问题与基本限制

强化学习来自人类反馈是一种训练 AI 系统与人类目标对齐的技术，但其自身存在的问题、局限性以及相关改进技术的概述，以及提出用于改善社会监督的审计和公开标准的重要性。

Jul, 2023

主动序贯学习机器教学

本文探讨了机器教学的问题，提出了基于马尔可夫决策过程的序列教学问题。通过研究多臂老虎机学习器的模拟实验和用户研究，探究了教学规划和学习者具有教师模型两种方法对于学习效果的影响，分别从学习者的角度和教师的角度考虑互动智能系统的策略行为，提供了新的研究方法。

Sep, 2018

通过主动奖励学习实现证明反馈高效强化学习

本文提供一种以人类在强化学习中的角色为基础的算法框架，旨在从理论角度解决设计有效的奖励函数的问题。我们提供了一种主动学习的 RL 算法，通过仅在某些状态动作对上询问少量关于任务奖励的问题，保证以高概率提供几乎最优的任务策略。

Apr, 2023

如何在强化学习中高效地查询人类反馈？

研究提出了一种有效的轨迹对采样方法，用于探索隐藏的奖励函数，以便在收集人类反馈之前准确地学习，比现有文献更少地需要人类反馈量来学习基于偏好模型的最优策略，可以考虑线性和低秩 MDP

May, 2023