更好的指令双向翻译对齐
我们提出了一种可扩展的方法,通过自动标记人工编写的文本与相应的指令来构建高质量的指令跟随语言模型。我们的方法命名为指令反向翻译,使用少量种子数据和给定的网络语料库对语言模型进行微调,通过为网络文档生成指令提示来构建训练样本(自助增强),然后从这些候选样本中选择高质量的例子(自我策划)。然后使用这些数据对模型进行微调。对LLaMa进行两次迭代的微调可以得到一个模型,它在Alpaca排行榜上性能优于其他基于LLaMa的模型,并且不依赖蒸馏数据,展示了高度有效的自我对齐。
Aug, 2023
通过引入SWIE(Segment-Weighted Instruction Embedding)和一个instruction-following数据集OVERMISS,以及对两个主流开源LLMs BLOOM和LLaMA的应用,提出了改善模型指令理解和翻译结果忠实性的方法,实验证明在翻译性能上取得了显著提升,并且将SWIE和OVERMISS相结合的模型表现出进一步的增强。
Aug, 2023
我们提出了一个新的基准测试CoDI-Eval,系统和全面评估LLMs对带有各种约束的指令的响应,揭示了它们在按照特定约束执行指令方面的局限性和开源与闭源LLMs之间存在显著差距。
Jan, 2024
扩展大型语言模型以有效处理长篇背景需要依据相似长度的输入序列进行指导微调,本文提出了LongAlign框架,包括长篇背景对齐的指导数据、训练和评估方法,通过Self-Instruct构建了包含各种长篇背景任务的数据集,采用打包和排序批处理策略加快有差异长度分布的数据的监督微调,引入了损失权重方法以平衡打包训练过程中不同序列对损失的贡献,并引入了LongBench-Chat测试基准来评估对1万至10万字查询的指导跟进能力,实验证明LongAlign在长篇背景任务中性能比现有的大型语言模型框架提升了30%,同时保持了对短语、通用任务的熟练处理能力。
Jan, 2024
通过使用编码-解码原理,我们引入了CodecLM,这是一个用于自适应生成与不同后续指令分布和大语言模型对齐的高质量合成数据的通用框架。在编码过程中,我们将种子指令转化为元数据,然后通过解码来创建定制的指令。我们还引入自我评分和对比过滤来定制数据样本,经过在四个开放领域指令遵循基准测试上的大量实验证明,CodecLM相对于当前技术水平具有显著的效果。
Apr, 2024
介绍了一种有效的数据增强技术,通过将复杂指令分解为简单的子组件、修改并重构它们为新的变体,以在训练和评估大型语言模型的指令追踪精度时保留原始指令的上下文和复杂性,并引入可变性。使用该方法开发了DeMoRecon数据集来精细调整和评估大型语言模型,在我们的指令追踪基准和常用基准上,发现使用DeMoRecon进行精细调整的大型语言模型性能显著提升。
Jun, 2024
指导微调(IFT)对于使大型语言模型(LLM)遵循指令非常关键。本文提出了一个全新的完全合成的多语言多轮指导微调数据集(M2Lingual),称为Evol,以更好地使LLM在多种语言和任务中对齐。M2Lingual包含182K个基于不同种子构建的IFT对,涵盖了70种语言、17个NLP任务和一般的指令-响应对。使用M2Lingual微调的LLMs在许多现有的多语言IFT数据集中表现出色。重要的是,使用M2Lingual训练的LLMs在广泛的评估基准上始终能够达到与现有的多语言IFT数据集相媲美的竞争结果。因此,我们提出了用于创建M2Lingual的2步Evol分类法。
Jun, 2024
本研究针对大语言模型(LLMs)对齐中存在的合成数据质量不足的问题,提出了一种新的方法:指令前后翻译。通过生成和优化基于网页文献的合成指令,研究发现该方法在多个评估标准上优于传统合成数据,表明其在提高指令质量和多样性方面具有显著潜力。
Aug, 2024
本研究解决了为大型语言模型手动标注指令数据的困难和高成本问题。提出了REInstruct方法,通过从无标签语料库中自动构建指令数据,并采用重写方法提升数据质量。研究表明,使用REInstruct生成的指令数据在性能上超过了现有的其他开放源代码方法,具有广泛的应用潜力。
Aug, 2024