使用异构反馈微调大型语言模型的框架
本文介绍了Fine-Grained RLHF框架,可以对包含一定程度错误或无效信息的长文本提供细化的人类反馈进行训练,并实验表明使用该框架能够改善语言模型生成过程中生成虚假、有毒、无关的输出等问题。
Jun, 2023
Okapi是第一个基于RLHF进行多语言指导调整的系统,引入26种不同语言的指导和回应排序数据,以促进未来多语言LLM研究的实验和发展。
Jul, 2023
利用强化学习从人类反馈中对大型语言模型(LLMs)进行微调,该方法已在一些最广泛使用的人工智能模型中得到应用,如OpenAI的ChatGPT、Anthropic的Claude或Meta的LLaMA-2。我们通过广泛的分析探讨了这个过程的每个阶段(即受监督的微调(SFT)、奖励建模和强化学习从人类反馈)对于两个关键属性的影响:越界分布的泛化和输出的多样性。我们发现,相对于受监督的微调,强化学习从人类反馈更好地泛化到新的输入,尤其是在训练和测试之间的分布差异越大时。然而,相比于受监督的微调,强化学习从人类反馈显著降低了输出的多样性,这意味着在当前LLM微调方法中存在泛化和多样性之间的权衡。我们的研究结果为特定应用提供了微调方法的指导,并表明有必要改进泛化和多样性之间的权衡。
Oct, 2023
通过采用无害的来自人类反馈的强化学习方法,我们绕过了监督微调,直接应用于Mistral,从而创建了Mistral-Plus,它不仅保留了基础模型的通用能力,还显著增强了其对话能力,并大幅减少了有毒输出的生成。
Mar, 2024
对于大型语言模型(LLMs)的研究,包括基本原理、应用领域以及训练过程,本综述论文对于上下文学习、多种微调方法以及参数使用效率优化等机制进行探讨,同时深入研究了如何通过创新的强化学习框架和融入人类反馈的新方法来更好地与人类偏好相统一的问题。还研究了将外部知识融入LLMs的新兴技术——检索增强生成。对于LLMs的伦理问题,论文讨论了需谨慎且负责任的应用需求。最后,论文展望了未来的研究方向,提供了关于当今及未来LLMs领域中不断发展的全面且简明的概述,为人工智能领域的研究人员和实践者提供了有益的指南。
Apr, 2024
Supervised Fine-Tuning (SFT) 和 Reinforcement Learning from Human Feedback (RLHF) 是增强语言模型(LMs)能力的两个基本过程,它们可以更好地与人类偏好相一致,然而当前常见的做法是简单地按顺序应用它们,而没有统一它们的优化目标,导致在适应不同目标之间存在权衡,并忽视了用两者的长处弥合这个范式差距的机会。为了统一理解,我们在马尔可夫决策过程(MDP)框架中通过两个子过程——偏好估计和转移优化来解释了SFT和RLHF。通过这种建模方式,我们发现SFT只是RLHF的一个特殊情况,其估计和优化能力较差。因此,SFT高估了模型的能力,导致优化效果不佳。基于这个观点,我们引入了直观微调(IFT)将SFT和RLHF集成为一个单一过程。IFT通过一个时间残差连接捕捉LMs对整个答案的直观感知,同时使用与SFT相同数量的非偏好标记数据和一个单一策略。我们的实验证明,IFT在几个任务上,特别是那些需要生成、推理和遵循事实能力的任务上,表现出与SFT和一些典型的对齐方法相当甚至更优的性能。一个可解释的Frozen Lake游戏进一步验证了IFT的有效性。
May, 2024
通过细粒度的分词级监督来增强预训练的大规模语言模型(LLM)的对齐,该方法可提高LLM性能的绝对改善率高达5.1%,与传统的PPO模型相比,训练集是通过最小编辑来改善标准奖励模型数据集中较不受欢迎的回答,以确保在必要的地方进行改动,同时保留大部分原始内容。
Jun, 2024
本报告探讨了大型语言模型(LLMs)的微调,结合理论见解与实践应用,填补了传统自然语言处理(NLP)模型到AI关键角色之间的研究空白。报告引入了一个结构化的七阶段微调流程,并强调管理不平衡数据集和优化技术。显著发现是采用高效参数方法能够在计算效率和性能之间取得良好平衡,报告为研究者和从业者提供了实用的见解。
Aug, 2024
本研究解决了在缺乏指导性数据的情况下,如何使预训练语言模型具备遵循指令能力的问题。提出了一种新方法,通过使用随机文本的前半部分作为指令,与GPT-3.5-turbo或GPT-4-turbo生成的文本作为响应,进行微调。实验表明,使用这种“非指导性数据”进行微调的模型在遵循指令能力上有所提升,甚至达到了与经过监督微调的模型相当的水平,具有重要的研究意义。
Aug, 2024