- ULMA:统一语言模型对齐与演示与逐点人类偏好
发展了一种称为点对点 DPO 的偏好学习方法,该方法填补了现有点对点优先学习方法在信息损失和失败方面的不足,并提供了同时处理人类演示和点对点优先数据的统一框架。
- 大规模语言模型的数据管理:一项调查
数据管理在大型语言模型的训练中起着基础性的作用,本文调查了数据管理在预训练和有监督微调阶段的各个方面,包括数据数量、数据质量、领域 / 任务组成等,为构建强大的大型语言模型提供了指导资源。
- 通过潜变量推断训练思维链
大型语言模型通过使用 ``思维链 '' 提示以逐步解决问题的方式更准确地解释,一种监督微调的方法是通过使用可调参数的梯度上升来最大化标记训练集中正确答案的平均对数似然。然而,我们提出了一种微调策略,尝试通过使用思维链提示最大化生成正确答案的 - ChatGPT 的一周年:开源大规模语言模型是否在迎头赶上?
2022 年底,ChatGPT 的发布在 AI 的研究和商业领域引发了巨大的风潮,通过使用监督微调和强化学习来对大型语言模型进行指令调优,它展示了模型能够回答人类提出的问题并按照广泛的任务进行指令遵循,使得大型语言模型的研究兴趣得到了极大的 - ShareGPT4V:改进大型多模态模型的更好标题
在大型多模态模型领域,高效的模态对齐对于提升模型性能至关重要,但由于高质量图文数据的稀缺性而受限。为了解决这一瓶颈,我们介绍了 ShareGPT4V 数据集,这是一个包含 120 万条高度描述性的标题的创新大规模资源,其在多样性和信息内容上 - 超越模仿:利用细粒度质量信号进行对齐
我们提出了一种名为 FIGA 的改进对齐方法,通过利用细粒度的质量信号,即对比好坏回答的方式,指导大型语言模型的对齐学习。实验证明了我们的方法的有效性。
- 语言模型之超级马里奥:从同源模型中吸收能力如午餐一般
我们揭示了语言模型(LMs)可以通过吸收同类模型的参数而无需重新训练或使用图形处理器来获得新的能力。我们引入了一种名为 DARE(Drop And Rescale)的新操作,将绝大多数增量参数直接设为零,并可以将多个特定任务的 LM 合并为 - 大规模语言模型驱动的对话代理的即插即用策略规划器
本文提出了一种用于策划大型语言模型(LLMs)主动对话问题的新型对话策略规划范式,名为 PPDPP,通过可调节的语言模型插件来提高 LLMs 的主动性。实验证明,在谈判、情感支持和辅导对话等三个不同的主动对话应用中,PPDPP 相对于现有方 - SuperHF:基于人类反馈的监督式迭代学习
基于大型语言模型对齐的一种新方法 SuperHF,旨在解决安全性、人类价值的对齐以及训练稳定性方面的挑战。SuperHF 结合了 Supervised Fine-Tuning 和 Reinforcement Learning from Hu - LoBaSS:衡量监督微调数据的可学习性
利用数据的可学习性作为选择模型数据的主要标准,研究通过引入损失为基础的 SFT 数据选择方法(LoBaSS)来确保数据选择与模型能力的匹配,从而提高对话和数学领域的模型能力。LoBaSS 方法在仅使用总训练数据的 6% 的情况下,超过全数据 - KwaiYiiMath 技术报告
KwaiYiiMath enhances mathematical reasoning abilities by applying Supervised Fine-Tuning and Reinforced Learning from Hu - 理解 RLHF 对 LLM 泛化和多样性的影响
利用强化学习从人类反馈中对大型语言模型(LLMs)进行微调,该方法已在一些最广泛使用的人工智能模型中得到应用,如 OpenAI 的 ChatGPT、Anthropic 的 Claude 或 Meta 的 LLaMA-2。我们通过广泛的分析探 - EMNLPSteerLM: 属性调节的 SFT 作为 (用户可操控的) 替代 RLHF
为了解决强化学习从人类反馈中采集隐式价值观的困难,本研究提出了一种名为 SteerLM 的监督微调方法,使最终用户能够在推理过程中控制生成的回复,从而生成有帮助且高质量的回复,同时保持可定制性。
- SALMON:自我对齐与遵循原则的奖励模型
该研究提出了一种名为 SALMON 的新方法,使用仅包含少量人定的原则和基于合成偏好数据训练的奖励模型,实现了对基础语言模型的自动对齐,通过调整原则控制奖励模型的偏好,进而影响强化学习训练的策略的行为,消除了对在线人类偏好收集的依赖,其在各 - OpenChat: 运用混合质量数据推进开源语言模型
通过使用混合质量数据改进开源语言模型,本论文介绍了一种名为 OpenChat 的新框架,其中以少量的专家数据与大量的次优数据混合构成的一般 SFT 训练数据作为粗粒度奖励标签,通过 C-RLFT 学习类别条件策略,从而实现了在三个标准基准测 - VerilogEval:用于 Verilog 代码生成的大型语言模型的评估
该论文提出了一种专门为评估大型语言模型在硬件设计和验证中的 Verilog 代码生成性能而设计的基准测试框架,演示了预训练语言模型的 Verilog 代码生成能力可以通过使用 LLM 生成的合成问题 - 代码对进行监督微调来提高。
- 大语言模型的同时机器翻译
利用大型语言模型进行同传机器翻译,在训练推理不匹配的问题上引入了简单而有效的混合策略,并且通过在完整和前缀句子的混合训练上进行监督微调,实现了显著的性能改进,证明大型语言模型可以在翻译质量和延迟方面达到与专用同传机器翻译模型相当的水平。
- DISC-MedLLM: 连接通用大型语言模型与真实世界医学咨询
提出了 DISC-MedLLM,一种综合的解决方案,利用 Large Language Models(LLMs)在端到端的对话式医疗服务中提供准确和真实的医疗回应。
- 对齐之毒
通过实验证明,内容安全问题角度来看,对齐对指令调整模型的性能有负面影响,尤其是在各种推理基准测试中,通过有对齐的答案进行调整会使性能下降 4-33%。
- 指令标记:用于多样性和复杂性分析的标记技术
通过开源数据集 InsTag 基于语义和意图打标签,研究了指令多样性和复杂性对基于监督微调的基础语言模型性能的影响,并通过选择多样性和复杂性样本进行微调,在多项指标上超越了基于开源数据集的模型。