无头语言模型：基于对比加权连接的无预测学习

Sep, 2023

无头语言模型：基于对比加权连接的无预测学习

Headless Language Models: Learning without Predicting with Contrastive Weight Tying

Nathan Godey, Éric de la Clergerie, Benoît Sagot

TL;DR自监督预训练语言模型通常通过对广泛的词汇表进行概率分布预测。在本研究中，我们提出了一种创新的方法，通过对比权重绑定（CWT）以对比的方式重构输入嵌入，从而摆脱了概率预测。我们将该方法应用于单语和多语境下预训练无头语言模型。我们的方法在减少训练计算需求高达 20 倍的同时，同时提高了下游性能和数据效率。与相似计算预算的传统语言模型相比，我们观察到显著的 + 1.6 GLUE 分数增加和显著的 + 2.7 LAMBADA 准确性提升。

Abstract

self-supervised pre-training of language models usually consists in predicting probability distributions over extensive token vocabularies. In this study, we propose an innovative method that shifts away from pro

self-supervised pre-training language models contrastive weight tying headless language models downstream performance

发现论文，激发创造

使用弱监督微调预训练语言模型：一种对比正则自训练方法

该研究通过开发一种对比自训练框架 (COSINE) 来解决使用弱监督 fine-tune 预训练语言模型 (LMs) 时的过拟合问题，实验证明该方法在自然语言处理的多个任务中表现优异。

Oct, 2020

无监督上下文感知句子表示预训练在多语言密集检索中的应用

本文介绍了一种简单有效的单语言预训练任务 —— 对比上下文预测 (contrastive context prediction, CCP)，通过学习建模句子级上下文关系来学习句子表示，从而使句子配对对齐，并使用语言特定的存储器库和非对称批标准化操作来防止模型崩溃和信息泄漏，在不使用双语数据的情况下，在多语言检索任务 Tatoeba 上实现了新的最佳结果，在跨语言查询 - 段落检索任务 XOR Retrieve 和 Mr.TYDI 中，该模型在所有使用双语数据的预训练模型中在零样本和监督设置 (both zero-shot and supervised setting) 中都取得了两个最新成果。

Jun, 2022

广泛的自对比使得无需反馈的语言模型对准

通过利用自动生成的负例，自我对比是一种无需依赖人类反馈的大型语言模型对齐方法，仅通过有监督的微调目标，利用语言模型本身生成大量多样化的候选，并根据文本相似性使用预训练的嵌入模型筛选多个负例，实验证明在此设置下，仅通过缩放负响应仍可以有效地近似具有更平衡的正面和负面偏好注释的情况，通过对三个数据集的直接偏好优化实验表明，自我对比可以始终显著优于有监督微调和标准偏好优化训练，当自生成负例的数量增加时，自我对比的性能也在不断提高。

Mar, 2024

一种强大的自学习方法：全无监督跨语言词嵌入映射

本文提出了一种新的无监督初始化和稳健的自学习算法来学习跨语言词嵌入，成功地克服了传统方法在更实际的语境下所面临的困难，并在标准数据集上取得了最佳效果，甚至超过了以往的监督式系统。

May, 2018

不要以最后一层来评估语言模型：分层注意力池化对比学习

该论文介绍了一种基于注意力池化策略和对比学习目标的方法，可以从预训练的语言模型中提取语言学特征和层次信号，用于下游任务，并在语义文本相似度和语义搜索任务中取得了显著提升。

Sep, 2022

CWCL：使用持续加权对比损失进行跨模态迁移

本文探讨了交叉感知培训中的对比训练，其中一个模态的预训练模型通过成对的数据用于学习另一个领域的表示学习。采用连续加权对比损失（CWCL）的本文提出了一个新的损失函数，通过连续相似性度量来对齐嵌入空间。在 0-shot 图像分类、0-shot 语音意图分类和关键词分类中取得了相对于现有方法的显著改进。

Sep, 2023

预训练语言模型微调的监督对比学习

通过构建 SCL 算法，并将其应用到先前基于 RoBERTa-Large 模型的建议中，提出了一种新的有监督对比学习优化目标，用于自然语言理解任务的微调，在少样本学习设置下，相比于传统 CE 损失函数，该方法在多个数据集上均有显著的改进，可以更好地处理数据噪音并更好地推广至相关任务。

Nov, 2020

C3: 采用对比弱监督的持续预训练用于跨语言 Ad-Hoc 检索

本文介绍了一种使用多语言维基百科文章预训练预训练语言模型的方法，以提高检索效果。

Apr, 2022

利用语言 - 图像预训练进行高效稳健的双语词汇对齐

本文提出了一种名为 WALIP 的 UWT 方法，它基于预训练的语言 - 图像模型和 CLIP 模型，使用图像指纹来定义初始节点，再通过鲁棒的 Procrustes 算法迭代校正和细化估计的对齐，此方法在语言对和词向量不同的情况下表现出了极大的鲁棒性。

May, 2022

跨语言监督改善大型语言模型预训练

本研究介绍了一种在预训练大型语言模型时将自监督语言建模目标和受监督机器翻译目标混合的策略，并证明了该策略产生了具有更好上下文学习能力的模型。同时，为了解决混合比例的问题，本研究提出了一种简单而有效的策略。

May, 2023