大型语言模型的混合对齐训练
本文提出了一种对齐框架,名为人类行为强化学习(RLHB),通过直接利用真实的在线人类行为来对齐大型语言模型,并采用生成对抗框架训练生成器按照预期的人类行为进行回复,鉴别器则验证查询、回复和人类行为三元组是否来自真实的在线环境,在自然语言形式的行为模型和多模型联合训练机制的支持下,实现了积极可持续的在线对齐。通过人工和自动评估,实验证实了本文方法的有效性。
May, 2024
综述了大型语言模型对齐技术的全面概述,包括数据收集、训练方法和模型评估,并提供了未来研究方向的启示,是了解和推进适应人类任务和期望的 LLM 对齐的宝贵资源。
Jul, 2023
本研究提出了一个新的框架,利用奖励建模 (RM) 方法和模拟高质量演示来进行对齐语言模型的训练,避免了对已对齐的 LLMs 的依赖,这种方法的结果是,我们的模型 ALMoST 在对 InstructGPT 或人工注释指令训练的开放源代码模型中表现良好,我们的 7B 大小的模型在使用 GPT-4 作为评判员的 A /B 测试中表现优异,平均获胜率约为 75%。
May, 2023
使用 LAB(大规模对话机器人对齐)方法解决大型语言模型(LLM)训练中的可扩展性挑战,通过基于分类法的合成数据生成和多阶段调整框架,减少人工标注和专有模型的依赖,LAB 训练的模型在多个基准测试上表现出与传统人工标注或 GPT-4 生成的合成数据训练模型相媲美的性能,为提高 LLM 能力和指令遵循行为提供了可扩展、经济高效的解决方案,避免了灾难性遗忘的弊端,为各种应用的 LLM 的高效训练迈出了一步。
Mar, 2024
介绍了针对教育领域的新概念 —— 教育对齐的大型语言模型 (LLMs),它作为脚手架工具将复杂问题分解为可管理的子问题,并通过反馈和提示引导学生寻找最终答案。研究表明,通过对齐的强化学习方法在提高 LLMs 的性能方面表现优越,同时在线反馈对于提升教育对齐型 LLMs 的表现也具有潜力,为这些模型在教育环境中的发展提供了有价值的见解。
Feb, 2024
本文提出了一种名为行为期望范围(BEB)的理论方法,用于正式研究大型语言模型对齐的几种固有特性和限制,揭示了 LMM 对齐的根本局限性,并凸显了确保 AI 安全的可靠机制的必要性。
Apr, 2023
基于语言模型的人工智能助手的成功依赖于从人类反馈中进行强化学习,而传统的对齐算法受到复杂的注释和训练要求的限制。本文引入了一种名为线性对齐的算法,通过一次推断步骤将语言模型与人类偏好对齐,消除了对数据注释和模型训练的依赖。线性对齐通过一种新的参数化方法对策略优化进行了改进,使得能够按照差异约束条件提取最优策略,并直接估计对齐的回应。广泛的实验表明,线性对齐显著提高了语言模型对齐在不同场景下的性能和效率。
Jan, 2024
在本研究论文中,作者通过探索多种方法来与人类偏好对齐语言模型,包括基于贝叶斯推理的方法、基于反馈的加强学习和分布匹配等,从而展现了与强化学习反馈不同且互补的对齐技术的潜力。
Apr, 2024
本研究旨在构建一个与人类价值观相一致的通用文本助手,通过简单的基线技术和评估,我们发现适度干预的效益随着模型大小的增加而增长,并且不会影响大模型的性能;二分类和模仿学习亦具善意,但此外,排序偏好建模方法在对齐训练任务中表现更佳且尺度更合适;最终我们研究通过 “偏好模型预训练” 阶段达到在人类喜好上微调时的样本效率提升。
Dec, 2021