Xwin-LM:强大且可扩展的 LLM 对齐实践
本研究提出了一个新的框架,利用奖励建模 (RM) 方法和模拟高质量演示来进行对齐语言模型的训练,避免了对已对齐的 LLMs 的依赖,这种方法的结果是,我们的模型 ALMoST 在对 InstructGPT 或人工注释指令训练的开放源代码模型中表现良好,我们的 7B 大小的模型在使用 GPT-4 作为评判员的 A /B 测试中表现优异,平均获胜率约为 75%。
May, 2023
通过细粒度的分词级监督来增强预训练的大规模语言模型(LLM)的对齐,该方法可提高 LLM 性能的绝对改善率高达 5.1%,与传统的 PPO 模型相比,训练集是通过最小编辑来改善标准奖励模型数据集中较不受欢迎的回答,以确保在必要的地方进行改动,同时保留大部分原始内容。
Jun, 2024
通过强化学习从人类反馈中对齐大型语言模型的努力,介绍了一种新的高效对齐方式 Aligner,通过学习对齐与未对齐答案之间的校正残差,绕过了强化学习过程,通过有监督学习在查询 - 答案 - 校正数据集上训练的自回归 seq2seq 模型实现了参数高效的对齐解决方案,可以将强大的预训练模型通过 Aligner 的监督信号进行微调,进而应用于不同的开源和 API-based 模型。此外,Aligner 提供了很大的性能提升,如对 11 种不同的 LLMs 平均提升 18%的有用性和 23%的无害性(GPT-4 提升 26.9%和 17.5%),对 Llama2-70B 使用 Aligner-7B 的监督进行微调,可以提高 Llama2 的有用性 8.2%和无害性 61.6%。
Feb, 2024
通过评估不同情景下的对齐方法性能以及训练规模对其影响,本研究发现对齐方法在较小的训练数据子集中表现最佳,在推理任务中效果有限但在数学问题解决中有显著影响,而使用调整指令的模型对真实性有明显影响,这些发现将推动进一步研究以解决对齐挑战。
Apr, 2024
对大型语言模型(LLM)的先前训练和参数微调的对齐方法进行了深入研究,研究了对齐数据集、对齐技术和模型对下游性能的影响,提出了帮助研究人员进行更有效参数节约 LLM 对齐的关键指南。
Jun, 2024
我们通过建立一个顺序决策框架,利用示范数据集来对齐大型语言模型(LLMs),并介绍了各种减小 LLM 对齐任务中差异的方法,分析了这些方法的覆盖率和寻求主模式的行为,以及传统监督微调方法的优势和劣势。
Mar, 2024
大型语言模型在机器翻译方面表现出良好的性能,但是使用监督微调的方式仍存在一些问题,本研究引入了对比优选优化 (CPO) 方法来改进性能。通过将 CPO 应用于 ALMA 模型,可以在限定的数据和参数规模下达到与竞赛获胜者及 GPT-4 相当甚至超过其性能的 ALMA-R 模型。
Jan, 2024
综述了大型语言模型对齐技术的全面概述,包括数据收集、训练方法和模型评估,并提供了未来研究方向的启示,是了解和推进适应人类任务和期望的 LLM 对齐的宝贵资源。
Jul, 2023
介绍了针对教育领域的新概念 —— 教育对齐的大型语言模型 (LLMs),它作为脚手架工具将复杂问题分解为可管理的子问题,并通过反馈和提示引导学生寻找最终答案。研究表明,通过对齐的强化学习方法在提高 LLMs 的性能方面表现优越,同时在线反馈对于提升教育对齐型 LLMs 的表现也具有潜力,为这些模型在教育环境中的发展提供了有价值的见解。
Feb, 2024