Pcc-tuning: 打破语义文本相似性中的对比学习瓶颈

Jun, 2024

Pcc-tuning: 打破语义文本相似性中的对比学习瓶颈

Pcc-tuning: Breaking the Contrastive Learning Ceiling in Semantic Textual Similarity

Bowen Zhang, Chunping Li

TL;DR该论文通过对语义文本相似度进行深入分析，得出使用对比学习的斯皮尔曼相关系数上限为 87.5，并提出了一种创新方法 Pcc-tuning，通过使用皮尔逊相关系数作为损失函数来改进模型性能，实验证明 Pcc-tuning 大大超越了之前的最新策略，将斯皮尔曼相关系数提高到了 90 以上。

Abstract

semantic textual similarity (STS) constitutes a critical research direction in computational linguistics and serves as a key indicator of the encoding capabilities of →

semantic textual similarity computational linguistics embedding models contrastive learning pcc-tuning

发现论文，激发创造

CSTS: 条件语义文本相似度

通过提出一种新的条件语义文本相似度任务 (conditional STS，C-STS)，旨在找到一个针对性的自然语言条件方面来测量句子之间的相似度，可以减少 STS 的主观性和模糊性并利用多样的条件实现细粒度的相似度评估，并使用各种最先进的模型证明了 C-STS 的挑战性。

May, 2023

语义相似度预测优于其他语义相似度度量

使用经过微调的模型准确预测语义相似度，以测量自然语言文本之间的语义相似度，与传统的基于子序列重叠或嵌入的方法相比，效果更好。

Sep, 2023

蒸馏模型中的对比学习

使用 SimCSE 论文中的适用对比学习方法，将基于知识蒸馏模型 DistilBERT 的模型架构进行调整，以解决自然语言处理模型在语义文本相似度上效果不佳且过大无法部署为轻量级边缘应用的问题，最终得到的轻量级模型 DistilFace 在 STS 任务的 Spearmans 相关性上达到了 72.1，相比 BERT Base 提升了 34.2％。

Jan, 2024

相关系数与语义文本相似度

本研究比较了常见文本向量表示方法中余弦相似度和皮尔逊相关系数等相似度计算方法的优缺点及其适用范围，并提出使用非参数秩相关系数作为相似度计算方法，以提高语义文本相似性任务的性能表现。

May, 2019

SemEval-2017 任务 1 中的 CompiLIG: 用于语义文本相似性的跨语言抄袭检测方法

使用基于语法、字典、上下文和机器翻译的多种方法，并采用无监督和有监督的方式组合，我们的最佳运行在 SemEval-2017 的 STS Track4a 中排名第一，与人类注释的相关性达到 83.02%。

Apr, 2017

SimCSE: 简单的对比学习句子嵌入

本文介绍了一种简单的对比学习框架 SimCSE，通过无监督和监督学习两种方法，显著提高了句子嵌入的性能，适用于语义文本相似性任务。

Apr, 2021

SemScore：基于语义文本相似度的指导调整 LLMs 的自动评估

提出一种称为 SemScore 的直接将模型输出与目标响应进行语义文本相似度比较的简单但非常有效的评估度量，对于评估调整教学语言模型在人工评估方面具有优势。

Jan, 2024

可解释的语义文本相似度：发现并解释句子之间的差异

本文研究了在语义文本相似度（STS）的基础上添加可解释性层，通过分析句对之间的对齐关系，给出了一种可度量关系的方法。同时，作者提供了一个公共的数据集来评估系统性能，研究表明该方法可用于进行自然语言的解释并提高用户的接受度。

Dec, 2016

语义文本相似性中的群体人类观点

本研究提出了第一个拥有约 15,000 个中文句子对和 150,000 个标签的不确定性感知语义文本相似度（STS）数据集（USTS），旨在研究 STS 中的集体人类观点。通过分析可以发现，一个标量或一个高斯分布无法充分地适应观测到的判定集合。我们进一步展示了当前的 STS 模型无法捕捉到由个别实例上的人类意见分歧引起的方差，而是反映了对整体数据集的预测置信度。

Aug, 2023

词向量集之间的相关性

研究表明，基于单词嵌入的相似性度量方法在无监督语义文本相似性（STS）任务中正在与更复杂的深度学习和专家设计的系统轻松竞争。通过将一个单词嵌入视为标量随机变量的例如 300 个观测值，我们避免了传统的几何方法，使用于基本汇集运算和经典相关系数得到的相似性效果很好，胜过许多最近的方法，同时速度更快且实现容易。此外，研究认为通过重新生成核希尔伯特空间之间的相关算子，可以避免汇集运算并直接比较词嵌入集。正如余弦相似性用于比较单个单词向量一样，我们介绍了中心核对齐（CKA）的一种新颖应用，作为平方余弦相似性的集合的自然推广。同样，CKA 非常易于实现，并享有非常强的实证结果。

Oct, 2019