- 对话机器人性能提升的调整
本文研究了对话代理(即聊天机器人)中的对齐方法与单独指示微调相比,在预定指导方针或 “防护轨道” 中可以实现更好的依从性。它探讨了传统的训练方法,如指示微调以及直接对齐方法(例如 Identity Preference Optimizati - CoEvol: 通过多智能体合作构建改进的指令微调回复
通过利用大型语言模型进行指导细化和多智能体协作,提出 CoEvol 框架来增强大型语言模型对指令的响应能力,并通过 MT-Bench 和 AlpacaEval 验证了其有效性。
- ACL大型语言模型的分阶段指导微调
通过渐进对齐的假设,我们提出了一种新颖的分阶段指令微调(Phased IFT)方法,基于难度评分并使用逐步训练的方式显著地提高了预训练语言模型的指令遵循能力。
- 揭示编码数据指令微调对大型语言模型推理能力的影响
通过对编码数据在不同比例、模型家族和规模以及推理领域下对指导微调(IFT)的影响进行细致研究,本文发现编码数据的微调增强了大型语言模型(LLMs)在不同模型家族和规模上的整体推理能力,同时呈现了一致的趋势。
- 在 LLM 中,上下文学习是否足够用于指令遵循?
通过对长文本 LLMs 进行多个 in-context 学习示例的贪婪选择,我们改进了 ICL 与 URIAL 的对齐效果,但仍未消除与指令微调之间的差距,进一步的削减研究揭示了 ICL 在指令调整的环境中的特殊性,从而推进了对 ICL 作 - ICLR蛋白质语言模型的偏好优化作为多目标结合物设计范式
该研究提出了一种基于指令微调和直接优化偏好的自回归蛋白质语言模型(pLMs)的多目标结合物设计范式。通过对专家策划的优先序列数据集进行直接优化,将多个设计目标编码到语言模型中。我们展示了所提出的对齐策略使 ProtGPT2 能够有效地设计以 - 学习还是自我调整?重新思考指令微调
通过知识干预框架,我们揭示了指导微调的潜在机制,并为最近和可能的未来工作提供了强有力的支持。
- LLM 生成的解释的属性和挑战
大语言模型的自我合理化能力在受限环境下得到了探索,当前的语言模型不仅依赖特定注释数据,还经常对其输出进行解释,生成的解释具有人类解释的常见属性。通过对多领域训练数据集的输出进行分析,我们发现生成的解释表现出选择性和包含说明性元素,但不太主观 - Aya 数据集:一份用于多语言指导调优的开放获取集合
本研究针对英语语言数据集的局限性,通过与全球流利的语言使用者合作,建立了覆盖 65 种语言的人工策划指令跟随数据集,并通过模板和翻译现有数据集创建了迄今最广泛的多语言数据集,共包含 5.13 亿个实例。此外,我们还提供 Aya 注释平台、A - 探索用于下游数据修剪的学习复杂性
通过将学习复杂度作为评分函数,本文提出了一种高效的修剪方法,可用于优化 fine-tuning 过程中的计算资源需求,并在大型语言模型的指令 fine-tuning 任务上取得了优越的性能。
- 对齐更长时间:一种简单但难以打败的教学微调基准
在对指令微调的研究中,最长指令的选择应该是任何研究的默认基线,因为经证实此方法能够在 LLMs 中提高性能,保持与对事实的知识进行测试的 OpenLLM 基准的竞争力。
- 百川 2-Sum: 对话摘要的 Baichuan2-7B 模型的指令微调
提出了一种使用 Baichuan2-Sum 模型进行以角色为导向的对话总结,并通过 NEFTune 技术进行训练以提高结果,在 CSDS 和 SAMSUM 两个公开对话总结数据集上获得了最新的最先进结果。
- 通过指令调整,为 Mistral-8x7B 稀疏 Mixture-of-Experts 激活中文聊天能力的 Aurora
通过对三个中文指令数据集进行系统研究、预处理和整合,本文成功构建了名为 'Aurora' 的 Mixtral-8x7B 稀疏专家组合模型,并通过这些数据集的指令微调,验证了 Aurora 模型在中文对话能力上的有效性,这一工作在稀疏专家组合 - 多样性和质量胜过数量:朝向多功能教学策划
本文介绍了一种高效且多功能的方法,用于从微调数据集中选择多样且高质量的指令跟踪数据。我们首先通过数据集的增强和扩展增加了更多多样性和高质量的数据,然后依次应用多样性压缩和质量压缩来筛选所需的数据集。实验结果表明,即使只有有限数量的高质量指令 - EMNLPPILLOW:通过提示匹配增强高效的指导微调
通过基于区分特性的提示方法,利用长文本模型在上下文学习能力上的优点,PILLOW 提出了一种改进低秩适应性的方法,实现了在各种评估指标上与传统 Fine-Tuning 方法相当的性能,仅利用消费级 GPU 资源且大幅降低了计算成本。
- 歌词:通过语义感知视觉对象增强细粒度语言视觉对齐和理解
一种新的多模式预训练和指令微调范式 Lyrics,通过细粒度的跨模态协作,将从细粒度视觉精炼器中提取的局部视觉特征注入到查询转换器中,同时,在语言输入的边界框和标签方面使用从视觉精炼器中推导出的信息,通过两阶段训练方案实现模态融合,从而在各 - 呢翻叭咩意?揭露語言模型表達中的偏好偏見
大型语言模型是否表现出社会人口统计学偏见,即使他们拒绝回答?通过探索上下文嵌入,并研究这种偏见是否被编码在其潜在表示中,我们提出了一种逻辑 Bradley-Terry 探测器,从单词的隐藏向量预测 LLMs 中的单词对偏好。我们在三个偏好配 - EMNLP重新审视指令精调模型评估以指导工业应用
指导微调(IFT)是一种强化大型语言模型(LLM)的零样本能力的强大范式,但在此过程中引入了新的评估指标要求。我们展示了基于 LLM 的评估指标适应这些要求,并利用它们对任务专业化策略进行调查,量化在实际工业环境中出现的权衡。我们的发现为从 - 从语言建模到指令遵循:理解指令调优后 LLMs 的行为转变
通过本研究,我们发现指导微调对大型语言模型产生了三个重要影响,包括了对指令识别的加强、对知识存储层次的对齐以及对单词关系学习的促进。这些发现有助于更深入地理解指导微调对大型语言模型行为变化的影响,并为未来解释和优化这些模型以适用于不同应用领 - CALLA 数据集:探索 LLMs 对中医文献的互动知识获取
使用 CALLA 数据集验证了以医学文献为基础的指导微调数据对大型语言模型在医学领域的知识获取能力、互动应用和准确性的促进作用。