通过 HEROS 揭示句子编码器评估的盲点

ACLJun, 2023

通过 HEROS 揭示句子编码器评估的盲点

Revealing the Blind Spot of Sentence Encoder Evaluation by HEROS

Cheng-Han Chiang, Yung-Sung Chuang, James Glass, Hung-yi Lee

TL;DR通过构建一个高质量的 SE 诊断数据集 HEROS，在系统比较了 60 多个监督和无监督的 SE 在 HEROS 上的表现后，我们发现大多数无监督的句子编码器对否定不敏感，并且发现用于训练 SE 的数据集是决定 SE 认为哪些句子对相似的主要因素，同时揭示了传统 STS 基准测试在评估 SE 时的盲点。

Abstract

Existing sentence textual similarity benchmark datasets only use a single number to summarize how similar the sentence encoder's decision is to humans'. However, it is unclear what kind of sentence pairs a

sentence encoder textual similarity benchmark heros lexical overlap negation

发现论文，激发创造

句子编码器面临的令人望而却步的困境：在标准基准中取得成功，但无法捕捉基本的语义属性

在本研究中，我们采用回顾性方法，对比了 5 种现有的句子编码器，即 Sentence-BERT、Universal Sentence Encoder (USE)、LASER、InferSent 和 Doc2vec，在下游任务表现和捕获基本语义特征能力方面的表现。我们评估了这五种句子编码器在受欢迎的 SentEval 基准测试上的表现，发现多个句子编码器在各种受欢迎的下游任务上表现良好。然而，在所有情况下都没有找到一个单一的优胜者，因此，我们设计了进一步的实验来更深入地了解它们的行为。我们提出了四个语义评估标准：复述、同义词替换、反义词替换和句子混乱，并使用这些标准评估了同样的五种句子编码器。我们发现，Sentence-BERT 和 USE 模型通过了复述标准，其中 SBERT 在两者之间更为优越。在同义词替换标准方面，LASER 表现最佳。有趣的是，所有句子编码器都未通过反义词替换和句子混乱的标准。这些结果表明，尽管这些受欢迎的句子编码器在 SentEval 基准测试上表现良好，但它们仍然难以捕捉一些基本的语义特征，因此，在自然语言处理研究中面临严峻的困境。

Sep, 2023

SenTest: 句子编码器鲁棒性评估

通过对比学习方法评估句子编码器的鲁棒性，使用字符级、词级和句级攻击检验了模型的稳健性，结果显示模型在扰动数据集上的准确率可下降高达 15％，且当前的分类策略未能充分利用语义和句法结构信息。

Nov, 2023

使用句子编码器和短语对齐朝向结构感知的释义识别

本文提出一种将句子编码器与对齐组件相结合的方法，针对改善意思相似度比较任务的性能和可解释性，并通过具体实验证明了该方法能够提升模型对结构差异和高词汇重复的语句的区分能力。

Oct, 2022

增强排名的无监督句子表示学习

本文提出了一种基于相邻句子的无监督句子编码器 RankEncoder，利用相邻句子约束进行训练，在语义文本相似度性能、相似句子对的有效性和普适性等方面都较好地表现，达到了 80.07% 的斯皮尔曼等级相关性，相较于最先进技术性能有 1.1% 的绝对提升，并且在相似句子对方面提升更为显着，为 1.73%，同时证明了 RankEncoder 可以普遍适用于现有的无监督句子编码器。

Sep, 2022

语义答案相似度度量评估

提出了利用基于 Transformer 模型度量方法对自然语言生成及问答系统进行语义相似度评估的框架，并使用 US-American public figures 的同指名字对数据集进行训练，取得较高的语义相似度度量结果。

Jun, 2022

用于评估问答模型的语义答案相似度

本论文提出了一种基于交叉编码器的语义答案相似度估计评估度量标准（SAS），与七种现有度量标准进行比较，并通过人类判断的语义相似性评估数据集检验其性能。结果表明，基于最近的 Transformer 模型的语义相似度度量标准与传统的词汇相似度度量标准在新创建的数据集和相关工作的一个数据集上的人类评价更加相关。通过语义相似性度量标准可以提高问答模型评测的准确性。

Aug, 2021

无监督语义文本相似性的句子元嵌入

本文介绍了如何通过将不同的预训练句子编码器组合成句子元嵌入来解决无监督的语义文本相似性（STS）任务，我们在句子级别应用、扩展和评估了来自单词嵌入文献的不同元嵌入方法，并在 STS 基准测试和 STS12-STS16 数据集上设置了新的无监督状态，平均提高了 3.7% 至 6.4% Pearson 的 r 值。

Nov, 2019

使用句子编码进行文本相似度比较的零样本分类技术 TeSS

TeSS（使用句子编码器的文本相似性比较）是一种零样本分类的框架，通过输入文本和每个候选标签提示之间的嵌入相似性来确定分配的标签。我们利用预训练期间优化定位语义相似样本在嵌入空间中更靠近彼此的句子编码器的表示。标签提示嵌入作为其对应类别集群的原型。与原始标签可能存在描述不当的情况不同，我们从外部语料库中检索语义相似的句子，并将它们与原始标签提示一起使用（TeSS-R）。TeSS 在各种闭集和开集分类数据集的零样本设置下表现出色，当与标签提示多样化通过检索结合时，进一步获得收益。这些结果对叙述者变化敏感，这是使用双编码器的一个附加好处。总之，我们的方法可作为零样本分类的可靠基线和评估句子编码器质量的简单界面。

Dec, 2022

Sentence-BERT：使用孪生 BERT 网络生成句子嵌入

本文介绍了 Sentence-BERT (SBERT)，它是预训练 BERT 网络的修改版，利用孪生和三元组网络结构来推导语义上有意义的句子嵌入，可以使用余弦相似性进行比较，将 BERT / RoBERTa 的寻找最相似组合的时间从 65 小时降至大约 5 秒钟，并保持来自 BERT 的精度。在共同的 STS 任务和转移学习任务中，我们评价 SBERT 和 SRoBERTa，该方法优于其他最先进的句子嵌入方法。

Aug, 2019

生成、判别和对比：半监督句子表示学习框架

本文提出了一种半监督句子嵌入框架 GenSE，通过使用大规模无标注数据，利用生成器 / 鉴别器模型进行句子对的合成和对比学习，实现对带标签和合成数据的句子表示学习，相对于目前最先进的方法，在四项领域适应任务上具有显着的性能提升，平均相关性得分为 85.19，证明了其高效性和一般化能力。

Oct, 2022