关键词preference-based feedback
搜索结果 - 7
- 基于主动探索的样本有效强化学习来自人类反馈
利用基于偏好的反馈为增强学习中的许多应用程序提供重要支持,本研究通过离线情境决斗机制问题的算法和多项式最坏情况遗憾边界,提供了一种在人类反馈训练大型语言模型中有效识别良好策略的方法,并在三个实际数据集上通过较少的人类偏好样本取得更好的性能。
- 具有偏好反馈的差分隐私奖励估计
本研究探讨了在保护个体标注者隐私的同时,通过偏好反馈来估计奖励模型的问题,使用了基于参数的 Bradley-Terry-Luce (BTL) 模型,提供了关于奖励参数估计误差的上下界,以及在本地模型和中央模型下确保标签 - 隐私所需的额外成 - 通过随机化提高基于偏好反馈的强化学习的效率
这项研究介绍了一种利用人类反馈的强化学习算法,在线性 MDP 模型和非线性函数逼近模型下,通过随机化算法设计实现了高样本效率和多项式计算复杂度,并通过一种新颖的随机主动学习过程最小化了查询复杂度,同时在后者中取得了近乎最优的折衷结果。
- 基于偏好的主动查询的情境强化学习和模仿学习
我们考虑上下文强化学习和模仿学习中的问题,学习者缺乏执行动作奖励的直接知识,但可以主动查询专家以比较两个动作并获得嘈杂的偏好反馈。本文提供一种算法,利用在线回归预测与函数类相关,在选择动作和决定何时查询时达到最小后悔和最小查询的目标。该算法 - 基于核函数的离线上下文对抗波动策略
在这项研究中,我们利用代理人能够选择获取人工反馈的上下文的事实,引入了离线情境对决贝叶斯臂设置,提出了一种基于上置信界的算法,并证明了一种遗憾上界。实验证实了该方法胜过使用均匀采样上下文的类似策略。
- 基于偏好的快速适应元强化学习
本研究基于元强化学习框架,探究了在人机交互中,通过基于偏好的反馈,而非数值奖励,在少数试验中快速调整策略以适应新任务的机制,并通过信息论技术设计问题序列来最大化人类专家的信息获取效率,实验结果表明其显著优于传统算法。
- 基于偏好的 Dueling Bandits 在线学习:综述
本研究调查了基于偏好的多臂赌博机和决斗赌博机的最新研究现状及其解决方法,关注于在序贯决策过程中进行的数据反馈和学习,并且考虑了强度信息不可用的情况。