不要以最后一层来评估语言模型：分层注意力池化对比学习

COLINGSep, 2022

不要以最后一层来评估语言模型：分层注意力池化对比学习

Don't Judge a Language Model by Its Last Layer: Contrastive Learning with Layer-Wise Attention Pooling

Dongsuk Oh, Yejin Kim, Hodong Lee, H. Howie Huang, Heuiseok Lim

TL;DR该论文介绍了一种基于注意力池化策略和对比学习目标的方法，可以从预训练的语言模型中提取语言学特征和层次信号，用于下游任务，并在语义文本相似度和语义搜索任务中取得了显著提升。

Abstract

Recent pre-trained language models (PLMs) achieved great success on many natural language processing tasks through learning linguistic features and contextualized sentence representation. Since attributes captured in stacked layers of PLMs are not clearly identified, straightforward ap

pre-trained language models attention-based pooling strategy contrastive learning objective semantic textual similarity semantic search tasks

发现论文，激发创造

无监督上下文感知句子表示预训练在多语言密集检索中的应用

本文介绍了一种简单有效的单语言预训练任务 —— 对比上下文预测 (contrastive context prediction, CCP)，通过学习建模句子级上下文关系来学习句子表示，从而使句子配对对齐，并使用语言特定的存储器库和非对称批标准化操作来防止模型崩溃和信息泄漏，在不使用双语数据的情况下，在多语言检索任务 Tatoeba 上实现了新的最佳结果，在跨语言查询 - 段落检索任务 XOR Retrieve 和 Mr.TYDI 中，该模型在所有使用双语数据的预训练模型中在零样本和监督设置 (both zero-shot and supervised setting) 中都取得了两个最新成果。

Jun, 2022

通过逐层维度选择从预训练语言模型中解析单词语义

该论文使用二进制掩码对预训练模型中不同层的输出进行切割，以解离 BERT 中的语义意义，而不更新预训练参数，从而产生解离的嵌入表示。使用二进制分类验证解离的嵌入的效果，判断两个不同句子中目标词的含义是否相同。实验结果表明，利用层次信息是有效的，而解离的语义意义进一步提高了性能。

Oct, 2023

蒸馏模型中的对比学习

使用 SimCSE 论文中的适用对比学习方法，将基于知识蒸馏模型 DistilBERT 的模型架构进行调整，以解决自然语言处理模型在语义文本相似度上效果不佳且过大无法部署为轻量级边缘应用的问题，最终得到的轻量级模型 DistilFace 在 STS 任务的 Spearmans 相关性上达到了 72.1，相比 BERT Base 提升了 34.2％。

Jan, 2024

通过概念瓶颈解读预训练语言模型

利用高层次、易于理解的概念来解释预训练语言模型的方法，通过人工标注和机器生成的概念来提取隐藏神经元，从而增强模型的鲁棒性和解释能力。

Nov, 2023

通过句子编辑探究语言模型可解释性

本文旨在将一个句子编辑数据集复用成为解释性测试场，系统研究预训练语言模型的可解释性及在该场景下的解释效果，发现注意力权重相关性较高，并且比基于梯度的显著性提取方法更有效。

Nov, 2020

自然语言处理中对比预训练概述：方法、经验教训和展望

本文总结了最近自监督和有监督对比 NLP 预训练方法，并描述了它们在提高语言建模、零样本学习、预训练数据效率和特定 NLP 终端任务方面的应用。文章介绍了关键的对比学习概念，总结了应用和交叉领域关系的结果。最后，我们指出了对比 NLP 的未来挑战和方向，以鼓励将对比 NLP 预训练推向近期在图像表示预训练中的成功。

Feb, 2021

基于注意力机制的非监督句级元嵌入来自上下文语言模型

提出了一种句子级元嵌入学习方法，利用不同的上下文化语言模型，通过无监督的学习方式学习句子嵌入，以满足不同需要的下游自然语言处理任务，实验证明提出的方法优于以往的方法和有监督的基线。

Apr, 2022

基于提示的少样本语言学习的对比学习

本文提出一种基于对比学习的框架，使用不同的增强 “视图” 将同一类别的输入聚类，远离来自不同类别的输入，将对比损失与标准的掩码语言建模（MLM）损失相结合，并应用于基于提示的少样本学习者，实验结果表明，我们的方法在 15 种不同的语言任务中表现优于现有的先进方法。

May, 2022

多头多层注意力机制用于深度语言表示的语法错误检测

利用经过预训练的语言表示模型的中间和最终层提取句子中的语法错误特征，通过多头多层的注意力模型，使用 Bidirectional Encoder Representation from Transformers (BERT) ，在三个语法错误数据集上实现更好的 F_0.5 分数，比当前最先进的方法分别高出 6.0（FCE），8.2（CoNLL14）和 12.2（JFLEG）个百分点，并证明利用多头多层注意力，我们的模型可以利用句子中每个记号的更广泛信息。

Apr, 2019

关注实体以获得更好的文本理解

在自然语言处理中，通过将共指信息作为辅助监督注入到目前现有的预训练模型中，能够提升模型在需要进行复杂和长距离推理的任务中的表现，从而超过目前最大的 GPT-2 模型，同时仅含有一小部分的参数。

Nov, 2019