- 通用化类比:向难以衡量的领域推广人工智能监管的测试平台
AI 系统越来越智能化,为了避免滥用人类反馈而学习追求遵循指示,研究通过控制 LLMs 对不可靠情况中的人类反馈进行泛化来减轻风险;采用 69 种不同领域的分布变化,发现奖励模型默认不会学习评估 “遵循指令”,而更偏好与互联网文本相似的人设 - 强化学习中偏好一致性的影响:摘要生成案例研究
从人类反馈中学习强化学习(RLHF)可以捕捉到文本生成质量的复杂和微妙的特性。本文探讨了偏好一致性对于文本摘要中 RLHF 的有效性的影响,通过展示人类偏好的采样范围包含一系列的标注者一致性,我们证明了(1)更高准确率的奖励模型和(2)所捕 - 视觉语言模型是强化学习的零样本奖励模型
使用预训练的视觉语言模型作为无样本奖励模型以指定任务,通过单个句子文本提示训练 MuJoCo 仿真人完成复杂任务,表明未来的视觉语言模型将在广泛的强化学习应用中成为更加有用的奖励模型。
- 通过约束强化学习高斯过程避免奖励模型过度优化
使用约束强化学习方法解决复合奖励模型中过度优化问题,并通过学习动态权重以改善评估性能、识别并优化评估阈值点的自适应方法。
- RLHF 中的长度相关性研究
通过针对回应长度进行优化,研究表明强化学习从人类反馈中能够取得显著的改进,该研究还探索了其他方法以在不增加长度的情况下实现模型性能的提升,并发现了回应长度在奖励模型方面的相关性。
- ICLR奖励模型合集有助于缓解过度优化
使用集合基的保守优化目标,能够在强化学习中有效抑制频繁优化,提高性能。
- 大型语言模型对词级扰动真的具有强健性吗?
利用预训练的奖励模型作为诊断工具,我们提出了一种用于评估大规模语言模型的稳健性的新方法,称为奖励模型合理鲁棒性评估(TREvaL)。经过广泛的实证实验,我们发现 TREvaL 在评估大规模语言模型的稳健性方面提供了一种准确的方法,尤其是在面 - 每个人都应该得到奖励:学习定制化的人类偏好
通过采集特定领域的偏好数据集,提出了一个三阶段的定制化奖励模型(RM)学习方案,旨在探索定制化偏好学习并在保留通用偏好能力的同时改进交互质量和数据效率。
- RLHF-Blender: 一个可配置的学习多样人类反馈的交互界面
使用来自不同来源的人类反馈學习强化学习模型,RLHF-Blender 是一个可配置的,互动式界面,帮助研究人员系统地研究人类反馈的属性和质量,以及人类因素对其有效性的影响。
- 对齐大型语言模型中奖励崩溃的研究
本研究旨在解决大型语言模型训练时出现的奖惩分布坍塌问题,提出了一种基于 Prompt-Aware 优化方案的解决方法,使得奖惩可以更好地区分不同的问句。
- 视觉语言模型作为成功检测器
本文介绍了一种使用大型预训练视觉语言模型和人工奖励注释的成功检测方法,将其作为视觉问答问题,研究了在三个不同领域的成功检测和推广属性,证明该方法能在看到未知语言和视觉变化的情况下胜过定制奖励模型。
- 通过建模奖励来学习理解目标规格
提出了一种基于奖励模型的框架,它使得机器学习代理能学习到语言指令, 并通过这些指令执行任务,而不需要通过修改环境奖励函数来实现。这种方法将任务的语义表示和执行分离,在简单的网格世界中,使代理能够学习一系列涉及块的交互和对空间关系的理解的指令