利用多种来源的人类反馈信息可提高强化学习算法的效率和准确性,通过算法来评估不同来源反馈信息的价值,可以有效地选择最具价值的教师进行反馈,从而提高人类价值和人工智能行为的一致性。
Mar, 2023
利用基于偏好的反馈为增强学习中的许多应用程序提供重要支持,本研究通过离线情境决斗机制问题的算法和多项式最坏情况遗憾边界,提供了一种在人类反馈训练大型语言模型中有效识别良好策略的方法,并在三个实际数据集上通过较少的人类偏好样本取得更好的性能。
Dec, 2023
通过多任务表示学习的方式,我们将人类反馈强化学习 (RLHF) 问题建模为一种上下文二分问题,并假设存在一种共同线性表示。我们证明了考虑任务相关性,并为具有不同任务相关性的源任务分配不同样本数量可以降低多任务 RLHF 中的样本复杂度。此外,由于表示学习,目标任务的样本复杂度仅与潜在空间的维度成线性关系。
May, 2024
深入探讨人机交互技术中基于人类反馈的强化学习(RLHF)的基本原理、应用及其研究趋势。
本研究通过上下文化和模拟累计奖励来解决教育上的干预建议问题,采用强化学习的代理模型结合混合学习方法,景点在线平台的自动化功能
Nov, 2022
本研究通过发展新的强化学习方法,解决了基于喜好反馈的多轮对话中规划和多轮互动问题,通过实验证明该算法在教育对话环境中超越了基线模型,同时在含有明确奖励的环境中也能达到基于奖励强化学习模型的性能
强化学习来自人类反馈是一种训练 AI 系统与人类目标对齐的技术,但其自身存在的问题、局限性以及相关改进技术的概述,以及提出用于改善社会监督的审计和公开标准的重要性。
Jul, 2023
本文探讨了机器教学的问题,提出了基于马尔可夫决策过程的序列教学问题。通过研究多臂老虎机学习器的模拟实验和用户研究,探究了教学规划和学习者具有教师模型两种方法对于学习效果的影响,分别从学习者的角度和教师的角度考虑互动智能系统的策略行为,提供了新的研究方法。
Sep, 2018
本文提供一种以人类在强化学习中的角色为基础的算法框架,旨在从理论角度解决设计有效的奖励函数的问题。我们提供了一种主动学习的 RL 算法,通过仅在某些状态动作对上询问少量关于任务奖励的问题,保证以高概率提供几乎最优的任务策略。
Apr, 2023
研究提出了一种有效的轨迹对采样方法,用于探索隐藏的奖励函数,以便在收集人类反馈之前准确地学习,比现有文献更少地需要人类反馈量来学习基于偏好模型的最优策略,可以考虑线性和低秩 MDP
May, 2023