数据课程上的对比后训练大型语言模型

Oct, 2023

数据课程上的对比后训练大型语言模型

Contrastive Post-training Large Language Models on Data Curriculum

Canwen Xu, Corby Rosset, Luciano Del Corro, Shweti Mahajan, Julian McAuley...

TL;DR通过多种模型（例如 InstructGPT、ChatGPT 和 GPT-4）自动构建偏好对比，并运用对比式后训练方法，我们探索了对大型语言模型（LLMs）进行人类偏好调整的重要步骤。我们仔细比较了 SLiC 和 DPO 的对比技术与 SFT 基准，并发现即使在继续进行 SFT 饱和后，DPO 仍然提供了一个阶跃式的改进。我们还探索了一种数据课程学习方案用于对比式后训练，该方案从 “更简单” 的对比开始，并逐渐转向 “更困难” 的对比，进一步提高了对齐性。最后，我们扩大了实验规模，使用更多数据和像 Orca 这样的大型模型进行训练。引人注目的是，对比式后训练进一步提高了 Orca 的性能，这已是一个与 GPT-4 输出相调谐的最先进的指导学习模型，其超过了 ChatGPT 的性能。

Abstract

alignment serves as an important step to steer large language models (LLMs) towards human preferences. In this paper, we explore contrastive post

alignment language models contrastive post-training slic dpo

发现论文，激发创造

使用反事实数据处理器调整大型语言模型

探究利用反事实提示以及直接偏好优化框架来对齐模型风格的方法，该方法有效地注入了良好的行为并减轻了不理想的情况，鼓励模型忽略不合适的指令，从而以低成本的方式使大型语言模型满足对负责任和道德对齐的人工智能系统的需求。

Jan, 2024

对比型偏好优化：推动机器翻译中 LLM 性能的边界

大型语言模型在机器翻译方面表现出良好的性能，但是使用监督微调的方式仍存在一些问题，本研究引入了对比优选优化 (CPO) 方法来改进性能。通过将 CPO 应用于 ALMA 模型，可以在限定的数据和参数规模下达到与竞赛获胜者及 GPT-4 相当甚至超过其性能的 ALMA-R 模型。

Jan, 2024

对 DPO 及其变种在多个任务中的对齐研究

通过评估不同情景下的对齐方法性能以及训练规模对其影响，本研究发现对齐方法在较小的训练数据子集中表现最佳，在推理任务中效果有限但在数学问题解决中有显著影响，而使用调整指令的模型对真实性有明显影响，这些发现将推动进一步研究以解决对齐挑战。

Apr, 2024

数据有效性视觉 - 语言对齐的课程学习

利用 TOnICS 算法对使用少量成对数据的预训练语言和视觉表示模型进行对齐，从而实现了使用更少的数据在 BERT 和 VinVL 预训练模型上进行映射，超越了 CLIP 在零样本图像检索方面的表现。

Jul, 2022

广泛的自对比使得无需反馈的语言模型对准

通过利用自动生成的负例，自我对比是一种无需依赖人类反馈的大型语言模型对齐方法，仅通过有监督的微调目标，利用语言模型本身生成大量多样化的候选，并根据文本相似性使用预训练的嵌入模型筛选多个负例，实验证明在此设置下，仅通过缩放负响应仍可以有效地近似具有更平衡的正面和负面偏好注释的情况，通过对三个数据集的直接偏好优化实验表明，自我对比可以始终显著优于有监督微调和标准偏好优化训练，当自生成负例的数量增加时，自我对比的性能也在不断提高。

Mar, 2024

基于提示的少样本语言学习的对比学习

本文提出一种基于对比学习的框架，使用不同的增强 “视图” 将同一类别的输入聚类，远离来自不同类别的输入，将对比损失与标准的掩码语言建模（MLM）损失相结合，并应用于基于提示的少样本学习者，实验结果表明，我们的方法在 15 种不同的语言任务中表现优于现有的先进方法。

May, 2022

多模式偏好对齐解决语言模型视觉指导调整的回归

通过细粒度注释的小型数据集，提出了一种基于蒸馏的多模态对齐模型，修复和增强了视觉指导调整后的多模态大型语言模型的语言能力。

Feb, 2024

学习澄清：基于行动对比自我训练的多轮对话

Action-Based Contrastive Self-Training (ACT) is a quasi-online preference optimization algorithm that improves conversation modeling in large language models (LLMs), particularly in the area of disambiguation and dialogue policy learning.

May, 2024

跨语言对齐的多层对比学习

本文提出了一种多级对比学习（ML-CTL）框架，使用翻译后的平行数据并显式地整合每对平行句子的单词级信息进行对比学习，以进一步提高预训练模型的跨语言能力。其中，采用了交叉零噪声对比估计（CZ-NCE）损失来减轻训练过程中小批量大小的浮点误差的影响。该方法显著提高了基础模型（mBERT）的跨语言迁移能力，并在 Xtreme 基准测试的多个零 - shot 跨语言下游任务中表现优异。

Feb, 2022

OpenAssistant Conversations -- 大型语言模型对齐的民主化

研究大规模语言模型的发布与使用，利用调整技术进行优化以改善使用性，此文介绍 OpenAssistant Conversations 数据库的发布，使用该人类生成的、人类注释的数据集进行训练后得到了全新的软件 OpenAssistant。相对于 ChatGPT，OpenAssistant 的答复被用户更青睐，其发布的代码和数据完全遵循宽松许可证，可供研究者使用。

Apr, 2023