句子编码器面临的令人望而却步的困境：在标准基准中取得成功，但无法捕捉基本的语义属性

Sep, 2023

句子编码器面临的令人望而却步的困境：在标准基准中取得成功，但无法捕捉基本的语义属性

The Daunting Dilemma with Sentence Encoders: Success on Standard Benchmarks, Failure in Capturing Basic Semantic Properties

PDF

Yash Mahajan, Naman Bansal, Shubhra Kanti Karmaker

TL;DR在本研究中，我们采用回顾性方法，对比了 5 种现有的句子编码器，即 Sentence-BERT、Universal Sentence Encoder (USE)、LASER、InferSent 和 Doc2vec，在下游任务表现和捕获基本语义特征能力方面的表现。我们评估了这五种句子编码器在受欢迎的 SentEval 基准测试上的表现，发现多个句子编码器在各种受欢迎的下游任务上表现良好。然而，在所有情况下都没有找到一个单一的优胜者，因此，我们设计了进一步的实验来更深入地了解它们的行为。我们提出了四个语义评估标准：复述、同义词替换、反义词替换和句子混乱，并使用这些标准评估了同样的五种句子编码器。我们发现，Sentence-BERT 和 USE 模型通过了复述标准，其中 SBERT 在两者之间更为优越。在同义词替换标准方面，LASER 表现最佳。有趣的是，所有句子编码器都未通过反义词替换和句子混乱的标准。这些结果表明，尽管这些受欢迎的句子编码器在 SentEval 基准测试上表现良好，但它们仍然难以捕捉一些基本的语义特征，因此，在自然语言处理研究中面临严峻的困境。

Abstract

In this paper, we adopted a retrospective approach to examine and compare five existing popular sentence encoders, i.e., Sentence-BERT, Universal Sentence Encoder (USE), LASER, InferSent, and Doc2vec, in terms of

retrospective approach sentence encoders performance semantic evaluation criteria nlp research

发现论文，激发创造

SenTest: 句子编码器鲁棒性评估

通过对比学习方法评估句子编码器的鲁棒性，使用字符级、词级和句级攻击检验了模型的稳健性，结果显示模型在扰动数据集上的准确率可下降高达 15％，且当前的分类策略未能充分利用语义和句法结构信息。

Nov, 2023

使用句子编码器进行零样本多标签主题推理

利用句子编码器进行零样本主题推断任务时，Sentence-BERT 表现出与其他编码器相比的优越性能，而在效率是首要考虑因素时，通用句子编码器是首选；这一结论得到了对七个不同数据集的广泛实验的支持。

Apr, 2023

句子嵌入在下游和语言探究任务中的评估

本文对最新的句子嵌入方法进行了全面评估，通过使用多样的下游和语言特征探测任务，表明与在蕴涵数据集上训练的句子编码器相比，使用具有深度上下文相关性单词嵌入的词袋模型可以在许多任务中产生更好的结果，但我们远未达成一个可以在多个下游任务中持续表现的通用编码器。

Jun, 2018

通用句子编码器

本研究介绍了一种生成句子嵌入向量的模型，旨在实现到其他自然语言处理任务的迁移学习，并探讨了模型复杂度、资源消耗、迁移任务训练数据可用性和任务性能之间的关系。作者发现句子嵌入迁移学习通常优于单词级别的迁移，并可以在极少量监督训练数据的情况下实现出人意料的良好表现。

Mar, 2018

用于改写和文本摘要的语义句子嵌入

介绍了一种适用于高级自然语言处理的句子向量编码框架，该框架可以从编码器 - 解码器模型中提取具有相似向量表示的常见语义信息的句子 latents 表示。我们将句子表示的应用用于两个不同的任务 -- 句子复述和段落摘要，使其适用于常用的循环框架处理文本。实验结果有助于深入了解向量表示适用于高级语言嵌入。

Sep, 2018

多语言通用句子编码器用于语义检索

本文介绍了两种基于 Transformer 和 CNN 模型架构的预训练多语言句子编码模型，并使用基于翻译的桥接任务学习绑定表示将 16 种语言的文本嵌入到单一的语义空间中，以提高检索效率，与最先进的语义检索、翻译检索和检索问题回答模型相竞争，并在某些情况下超越了英文单语句子嵌入模型的表现水平。

Jul, 2019

最佳多语言文件嵌入是否只是基于句子嵌入？

本研究系统地比较了使用 LASER、LaBSE 和 Sentence BERT 预训练的多语言模型从句子中生成文档级表示的方法，证明了对于多语言任务来说，通常使用句子嵌入的巧妙组合要优于将整个文档编码为单个单元，并且说明了虽然简单的句子平均值对于分类任务来说已经有一定的效果，但对于语义任务来说需要更复杂的组合。

Apr, 2023

使用句子编码器和短语对齐朝向结构感知的释义识别

本文提出一种将句子编码器与对齐组件相结合的方法，针对改善意思相似度比较任务的性能和可解释性，并通过具体实验证明了该方法能够提升模型对结构差异和高词汇重复的语句的区分能力。

Oct, 2022

使用双语句编码器的高效意图检测

该研究提出一种利用预训练双句编码器的意图检测方法，证明在少样本学习场景下，该方法比全 BERT-Large 模型的意图检测器表现更加稳定、更具普适性，且能够在短时间内训练并保持超参数稳定性。此外，研究团队还发布了相关代码和单域 13,083 个 annotated 样本的 77 种意图的数据集。

Mar, 2020

从自动挖掘的同义句训练有效的神经句子编码器

本文提出了一种无需人工标注的数据集构建方法，使用双语文本语料来 fine-tune Transformer 语言模型，并加入一个循环池层构建出有效的特定语种句子编码器，该方法在单张图形卡上使用不到一天时间训练，在波兰语的八个语言任务上实现了高性能，超越了最好的多语言句子编码器。

Jul, 2022