CodecLM: 用定制的合成数据对齐语言模型

Apr, 2024

CodecLM: 用定制的合成数据对齐语言模型

CodecLM: Aligning Language Models with Tailored Synthetic Data

Zifeng Wang, Chun-Liang Li, Vincent Perot, Long T. Le, Jin Miao...

TL;DR通过使用编码-解码原理，我们引入了CodecLM，这是一个用于自适应生成与不同后续指令分布和大语言模型对齐的高质量合成数据的通用框架。在编码过程中，我们将种子指令转化为元数据，然后通过解码来创建定制的指令。我们还引入自我评分和对比过滤来定制数据样本，经过在四个开放领域指令遵循基准测试上的大量实验证明，CodecLM相对于当前技术水平具有显著的效果。

Abstract

instruction tuning has emerged as the key in aligning large language models (LLMs) with specific task instructions, thereby mitigating the discrepancy between the next-token prediction objective and users' actual

发现论文，激发创造

基于多样化指令的可控生成大型语言模型的基准测试

我们提出了一个新的基准测试CoDI-Eval，系统和全面评估LLMs对带有各种约束的指令的响应，揭示了它们在按照特定约束执行指令方面的局限性和开源与闭源LLMs之间存在显著差距。

Jan, 2024

无人工指导的有限样本LLM自校准

我们研究了如何在样本有限的情况下，通过使用上下文学习示例和迭代调整算法，自动对齐大型语言模型，以实现几乎不需要人工监督的自我泛化对齐能力。

Jan, 2024

LongAlign: 大型语言模型的长文本对齐配方

扩展大型语言模型以有效处理长篇背景需要依据相似长度的输入序列进行指导微调，本文提出了LongAlign框架，包括长篇背景对齐的指导数据、训练和评估方法，通过Self-Instruct构建了包含各种长篇背景任务的数据集，采用打包和排序批处理策略加快有差异长度分布的数据的监督微调，引入了损失权重方法以平衡打包训练过程中不同序列对损失的贡献，并引入了LongBench-Chat测试基准来评估对1万至10万字查询的指导跟进能力，实验证明LongAlign在长篇背景任务中性能比现有的大型语言模型框架提升了30％，同时保持了对短语、通用任务的熟练处理能力。

Jan, 2024

Magpie: 无助推主题、从头训练，通过提示对齐的LLMs生成对齐数据

通过自我综合的方法，从对齐的大型语言模型中直接提取高质量的指令数据，称为Magpie，以生成大规模的对齐数据

Jun, 2024

优化和测试指令追踪：分析对指令化调整的语言模型的细粒度指令变种的影响

介绍了一种有效的数据增强技术，通过将复杂指令分解为简单的子组件、修改并重构它们为新的变体，以在训练和评估大型语言模型的指令追踪精度时保留原始指令的上下文和复杂性，并引入可变性。使用该方法开发了DeMoRecon数据集来精细调整和评估大型语言模型，在我们的指令追踪基准和常用基准上，发现使用DeMoRecon进行精细调整的大型语言模型性能显著提升。

Jun, 2024

更好的指令前后翻译对齐

本研究针对大语言模型（LLMs）对齐中存在的合成数据质量不足的问题，提出了一种新的方法：指令前后翻译。通过生成和优化基于网页文献的合成指令，研究发现该方法在多个评估标准上优于传统合成数据，表明其在提高指令质量和多样性方面具有显著潜力。

Aug, 2024

更好的指令双向翻译对齐

本研究针对大型语言模型（LLMs）对齐中的合成数据质量问题，提出了指令双向翻译的新方法。通过利用反向翻译和质量重写，生成的指令和响应在评估中表现优于多种传统数据集，显示出合成数据在多样性和复杂性上的优势。这一方法结合了网络信息的多样性和高质量响应的必要性，极大提升了模型对齐的效果。

Aug, 2024

Align$^2$LLaVA：用于多模态指令策划的人类与大型语言模型偏好对齐的级联方法

本研究解决了多模态大型语言模型（MLLM）数据质量变异性的问题，通过提出一种新颖的指令策划算法，将人类与LLM的偏好对齐。研究显示，通过优化指令数据集，我们能将训练样本数量从158k减少到14k，同时在各种MLLM基准上表现优于使用全量数据集的模型，从而显著提高系统的效率和效果。

Sep, 2024

自我代码对齐：代码生成的自我对齐方法

本研究解决了代码生成大语言模型在指令调优方面缺乏有效自我对齐的方法问题。提出的SelfCodeAlign方法通过无监督生成的任务和高质量示例，显著提高了模型的编程能力，最终生成的模型在多个基准测试中表现优于先前的最佳方法，表明该方法具有广泛的适用性和潜在影响。

Oct, 2024

自编码对齐：代码生成的自对齐方法

本研究解决了大型语言模型在代码生成中对人类指令响应能力不足的问题。提出的SelfCodeAlign方法通过无需大量人工标注的方式实现代码模型的自对齐，显示出其在生成高质量指令响应对方面的有效性，最终创造出状态最先进的StarCoder2-Instruct代码模型，极大提高了代码生成的能力。

Oct, 2024