用各向同性句子嵌入克服数据集偏差的核白化技术

EMNLPOct, 2022

用各向同性句子嵌入克服数据集偏差的核白化技术

Kernel-Whitening: Overcome Dataset Bias with Isotropic Sentence Embedding

Songyang Gao, Shihan Dou, Qi Zhang, Xuanjing Huang

TL;DR利用表示规范化和 Kernel-Whitening 可以提高 BERT 在分布外数据集上的性能，同时保持分布内准确性。

Abstract

dataset bias has attracted increasing attention recently for its detrimental effect on the generalization ability of fine-tuned models. The current mainstream solution is designing an additional shallow model to pre-identify biased instances. However, such two-stage methods scale up th

dataset bias representation normalization kernel-whitening bert out-of-distribution datasets

发现论文，激发创造

优化语句表示以提升语义和检索速度

本文发现传统机器学习中的白化操作同样可以增强句子表示的等向性并取得较为显著的性能提升，同时可以减少句子表示的存储成本和加速模型检索速度。

Mar, 2021

学习去除：面向各向同性的预训练 BERT 嵌入

研究表明预训练语言模型，如 BERT，在自然语言处理方面具有更广泛的应用价值。本文探究和分析预训练 BERT 嵌入的几何特征，提出一种基于可学习权重的简单而有效的方法，可以更好地处理向量的同一性问题，并在三项标准任务中获得较好的性能表现。

Apr, 2021

各向同性表示可以提高密集检索性能

本研究使用 Normalizing Flow 和 whitening 等无监督的后处理方法，提出一种基于令牌和序列的方法来处理密集检索模型的表示，优化 BERT 表示的各向同性分布，实验结果表明，这种方法可以显著提高文档排序的性能，并在处理不同的测试数据集时具有潜在的鲁棒性。

Sep, 2022

关于预训练语言模型中句子嵌入的研究

本篇论文提出通过使 BERT 句子嵌入分布变换成平滑和各向同性的高斯分布，从而提高 BERT 在各种语义文本相似度任务中的表现。实验证明，我们提出的 BERT-flow 方法在各种任务中显著优于现有状态下的句子嵌入方法。

Nov, 2020

使用各向同性批量归一化 Fine-Tuning BERT

本文研究了预训练语言模型中的同向性问题，提出了一种新的网络正则化方法：同向批量归一化（IsoBN），用于解决优化学习中掌握主要因素的问题，从而获得更多同向表现，提高了七项自然语言理解任务约 1.0 的绝对增量。

May, 2020

Ditto: 一种简单高效改善句向量表示的方法

该研究提出了一种名为 Diagonal Attention Pooling (Ditto) 的无监督方法来解决 BERT 等预训练语言模型中句子表示的各向异性问题，通过基于模型的重要性估计对单词进行加权，改进了语义文本相似度 (STS) 任务的性能。

May, 2023

电信领域句子嵌入的指南

评估公开可用模型及其领域自适应变体所得到的多种句子嵌入，通过对点检索准确性和置信区间（95%）的评估，建立了一种获取不同嵌入相似度阈值的系统方法并发现 fine-tuning 可提高点检索准确性和置信区间，并且结合预训练可以使置信区间更加紧密，同时通过分析和报告 top-K、正确句子和随机句子相似度的分布重叠，与检索准确性和相似度阈值之间的显著相关性，分析了检索准确性变化是否可归因于嵌入的各向同性，结果显示各向同性不能归因于更好的检索性能，然而，改进检索准确性的领域自适应也改善了各向同性，并且我们证明领域自适应使特定领域嵌入与一般领域嵌入更加分离。

Jun, 2024

一种基于簇的方法用于改善上下文嵌入空间的等向性

本文提出了一种基于局部聚类的方法来应对上下文嵌入空间中的退化问题，实验证明该方法可以在多个任务上缓解该问题。

Jun, 2021

WhiteningBERT：一种简单的无监督句子嵌入方法

本研究对四种预训练模型进行了大量实验研究，并得出三个主要发现：平均所有令牌比仅使用 [CLS] 向量更好；同时使用顶部和底部层优于仅使用顶部层；基于简单白化的向量标准化策略能够成倍提高性能。

Apr, 2021

基于白化的句子嵌入对比学习

本文提出了一种基于白化的对比学习方法，该方法将白化和对比学习相结合，提高了特征空间的一致性和对齐性，通过在通道轴上随机分组并独立白化，从而增加单个样本的多个扭曲形式，进一步增强对比学习中的正样本多样性，对七种语义文本相似度任务进行广泛实验，表明本方法在对比学习基准上取得了持续的改进并设置了新的最高水平。

May, 2023