通过系统消息概括与数千个偏好进行对齐
通过对人类和重要语言模型的偏好进行细致分析,研究发现人类对错误不太敏感,倾向于支持他们的观点的回答,并且当模型承认其局限性时显示出明显的不喜欢。相反地,高级语言模型如 GPT-4-Turbo 更强调正确性、清晰度和无害性。此外,相似大小的语言模型往往表现出类似的偏好,无论它们的训练方法如何,并且对于仅预训练的语言模型来说,通过对齐进行微调并不显著改变其偏好。最后,研究发现基于偏好的评估可以被有意地操纵,将模型与评委的偏好保持一致将提高评分,而注入评委最不喜欢的属性将降低评分。这导致了显著的评分变化,例如在 MT-Bench 上高达 0.59 分(1-10 分制),在 AlpacaEval 2.0 上高达 31.94 分(0-100 分制),突显了这种战略性调整的重要影响。
Feb, 2024
通过混合不同的人类偏好数据集以增加数据量来增强奖励建模的方法可能失败,因此该研究提出了一种名为 MORE 的新的训练策略,通过自适应调整偏好目标来捕捉不同偏好中的共享人类价值观,实验证明 MORE 相较于其他方法在奖励准确性和校准误差方面有更好的表现。
Dec, 2023
通过自动生成的优先数据 (Selfie) 和少量的人工标注优先数据,我们提出了一种新的框架,可以显著增强大型语言模型的对齐性能,进一步提取模型的内在偏好。
Jun, 2024
本研究提出了一个新的框架,利用奖励建模 (RM) 方法和模拟高质量演示来进行对齐语言模型的训练,避免了对已对齐的 LLMs 的依赖,这种方法的结果是,我们的模型 ALMoST 在对 InstructGPT 或人工注释指令训练的开放源代码模型中表现良好,我们的 7B 大小的模型在使用 GPT-4 作为评判员的 A /B 测试中表现优异,平均获胜率约为 75%。
May, 2023
通过 fine-tuning 机制,使用大型语言模型生成众人认可的共识性议论,以协调多样化的人类意见,并发现从子集中生成的共识性声明提高了个体贡献,并能够被人类用户所接受,具有较强的差异性和普适性。
Nov, 2022
本文探讨了对大型语言模型进行个性化对齐以确保其符合人类偏好和价值观的挑战和风险,并提出了一个三层次政策框架,以使用户可以体验到个性化对齐的好处,同时在国家和组织范围内控制不安全或不受欢迎的行为。
Mar, 2023
本研究旨在构建一个与人类价值观相一致的通用文本助手,通过简单的基线技术和评估,我们发现适度干预的效益随着模型大小的增加而增长,并且不会影响大模型的性能;二分类和模仿学习亦具善意,但此外,排序偏好建模方法在对齐训练任务中表现更佳且尺度更合适;最终我们研究通过 “偏好模型预训练” 阶段达到在人类喜好上微调时的样本效率提升。
Dec, 2021
通过自我引用的 AI 反馈框架,允许 13B Llama2-Chat 模型以 “最适合人类” 的原则为基准,对用户指令回应进行批判,从而提供高质量的偏好反馈,并通过自洽性方法减少位置偏差的影响、使用语义困惑度来计算不同回答的偏好强度差异,实验证明该方法使 13B 和 70B Llama2-Chat 注释器能够提供高质量的偏好反馈,并且基于这些偏好数据训练的策略模型在基准数据集上通过强化学习取得了显著的优势。
Jun, 2024
在本研究论文中,作者通过探索多种方法来与人类偏好对齐语言模型,包括基于贝叶斯推理的方法、基于反馈的加强学习和分布匹配等,从而展现了与强化学习反馈不同且互补的对齐技术的潜力。
Apr, 2024