WhiteningBERT：一种简单的无监督句子嵌入方法

Apr, 2021

WhiteningBERT：一种简单的无监督句子嵌入方法

WhiteningBERT: An Easy Unsupervised Sentence Embedding Approach

Junjie Huang, Duyu Tang, Wanjun Zhong, Shuai Lu, Linjun Shou...

TL;DR本研究对四种预训练模型进行了大量实验研究，并得出三个主要发现：平均所有令牌比仅使用 [CLS] 向量更好；同时使用顶部和底部层优于仅使用顶部层；基于简单白化的向量标准化策略能够成倍提高性能。

Abstract

Producing the embedding of a sentence in an unsupervised way is valuable to natural language matching and retrieval problems in practice. In this work, we conduct a thorough examination of pretrained model based unsupervised sentence embeddings. We study on four pretrained models and c

unsupervised sentence embeddings pretrained models vector normalization sentence semantics whitening

发现论文，激发创造

优化语句表示以提升语义和检索速度

本文发现传统机器学习中的白化操作同样可以增强句子表示的等向性并取得较为显著的性能提升，同时可以减少句子表示的存储成本和加速模型检索速度。

Mar, 2021

基于白化的句子嵌入对比学习

本文提出了一种基于白化的对比学习方法，该方法将白化和对比学习相结合，提高了特征空间的一致性和对齐性，通过在通道轴上随机分组并独立白化，从而增加单个样本的多个扭曲形式，进一步增强对比学习中的正样本多样性，对七种语义文本相似度任务进行广泛实验，表明本方法在对比学习基准上取得了持续的改进并设置了新的最高水平。

May, 2023

关于预训练语言模型中句子嵌入的研究

本篇论文提出通过使 BERT 句子嵌入分布变换成平滑和各向同性的高斯分布，从而提高 BERT 在各种语义文本相似度任务中的表现。实验证明，我们提出的 BERT-flow 方法在各种任务中显著优于现有状态下的句子嵌入方法。

Nov, 2020

使用监督对比学习的句子嵌入

本文提出了一种使用对比学习进行监督学习 Fine-tuning 预训练 BERT 模型以创建高效句子嵌入的新方法，相比于只使用基于交叉熵的监督学习的当前最先进方法 SBERT，我们的方法可以在句子转换和语义文本相似度基准测试上改进 2.8％和 1.05％。

Jun, 2021

自我引导的对比学习方法用于 BERT 句子表示

本文提出使用对比学习的方法，通过自我指导来改善 BERT 的句子表示质量，并将其应用于句子表示学习中。实验证明，与竞争对手的基线相比，我们的方法在广泛的句子相关任务上更加有效，并且在推理时效率高且鲁棒性强。

Jun, 2021

通用句子编码器

本研究介绍了一种生成句子嵌入向量的模型，旨在实现到其他自然语言处理任务的迁移学习，并探讨了模型复杂度、资源消耗、迁移任务训练数据可用性和任务性能之间的关系。作者发现句子嵌入迁移学习通常优于单词级别的迁移，并可以在极少量监督训练数据的情况下实现出人意料的良好表现。

Mar, 2018

最佳多语言文件嵌入是否只是基于句子嵌入？

本研究系统地比较了使用 LASER、LaBSE 和 Sentence BERT 预训练的多语言模型从句子中生成文档级表示的方法，证明了对于多语言任务来说，通常使用句子嵌入的巧妙组合要优于将整个文档编码为单个单元，并且说明了虽然简单的句子平均值对于分类任务来说已经有一定的效果，但对于语义任务来说需要更复杂的组合。

Apr, 2023

利用预训练嵌入和句子袋高效灵活地主题建模

本文提出了一种基于句子嵌入和生成过程模型相结合的话题建模和推断算法，使用期望最大化、硬分配和退火过程推导出快速推理算法。在评估中，我们的方法以相对较少的计算要求取得了最先进的结果。

Feb, 2023

通过语义图平滑获得更具辨别性的句子嵌入

通过语义图平滑，在经验上探索一种无监督学习更判别句子表示方法的方法。利用预训练模型得到的句子嵌入来提高文本聚类和分类任务的结果。经验证，我们的方法在八个基准测试中表现出一致的改进，展示了语义图平滑在改进句子嵌入用于监督和无监督的文档分类任务中的潜力。

Feb, 2024

BERT 和 ALBERT 句子嵌入在下游 NLP 任务中的表现评估

探讨了使用 BERT 和 ALBERT 进行 Sentence Embedding 的方式，并通过实验发现，对于 STS 和 NLI 数据集的任务，ALBERT 表现明显优于 BERT。

Jan, 2021