基于语言条件的语义文本相似度

ACLJun, 2024

Linguistically Conditioned Semantic Textual Similarity

Jingxuan Tu, Keer Xu, Liulu Yue, Bingyang Ye, Kyeongmin Rim...

TL;DR通过重新注释 C-STS 验证集，并经过全面的数据集分析，我们改进了 C-STS 任务，利用模型理解 QA 任务设置中的条件，从而生成答案，并提出了一种自动错误识别流水线，能够以 80% 以上的 F1 得分识别 C-STS 数据中的注释错误。此外，我们还提出了一种新方法，通过将答案与模型进行训练，大大提高了 C-STS 数据上的性能。最后，我们讨论了基于实体类型的条件性注释方法，并展示了实例中，基于类型 - 特征结构 (TFS) 的方法能够为构建具有新条件的 C-STS 数据提供语言基础。

Abstract

semantic textual similarity (STS) is a fundamental NLP task that measures the semantic similarity between a pair of sentences. In order to reduce the inherent ambiguity posed from the sentences, a recent work called Conditional STS (C-STS) has been proposed to measure the sentences' si

semantic textual similarity conditional sts annotation errors task definition entity types

发现论文，激发创造

CSTS: 条件语义文本相似度

通过提出一种新的条件语义文本相似度任务 (conditional STS，C-STS)，旨在找到一个针对性的自然语言条件方面来测量句子之间的相似度，可以减少 STS 的主观性和模糊性并利用多样的条件实现细粒度的相似度评估，并使用各种最先进的模型证明了 C-STS 的挑战性。

May, 2023

SemEval-2017 任务 1：语义文本相似度 - 多语言和跨语言聚焦评估

研究了句子的语义文本相似度，旨在评估现有模型的性能和限制，并提出一个新的 STS 基准用于对语义表示的研究。

Jul, 2017

可解释的语义文本相似度：发现并解释句子之间的差异

本文研究了在语义文本相似度（STS）的基础上添加可解释性层，通过分析句对之间的对齐关系，给出了一种可度量关系的方法。同时，作者提供了一个公共的数据集来评估系统性能，研究表明该方法可用于进行自然语言的解释并提高用户的接受度。

Dec, 2016

MedSTS：一份用于临床语义文本相似度的资源

通过医疗语料库 MedSTS，本研究旨在组建一种应用于医疗领域的语义文本相似度资源，为今后通过利用自然语言处理技术实现临床决策提供便利。

Aug, 2018

基于组合短语语义的无监督句子文本相似度

本文针对各种领域但仅需要最少的数据和计算资源的无监督 STS 提出了一种轻量级的 Expectation-Correction (EC) 公式来计算 STS，此方法包括通过组合多个递归 EC 公式来捕捉组合短语语义的 Recursive Optimal Transport Similarity (ROTS) 算法，这比之前的方法更有效和可扩展，并通过对 29 个 STS 任务的详细消融研究证明了此方法的有效性。

Oct, 2022

从对话学习语义文本相似度

本论文通过学习使用对话数据学习句子级语义相似性的新方法，利用无监督模型预测对话输入响应对以训练，导出的句子嵌入在语义文本相似性基准测试和 SemEval 2017 的 CQA 问题相似性子任务上表现良好。通过介绍同时进行对话输入响应预测任务和自然语言推理任务的多任务训练来进一步改善性能。广泛的实验显示，所提出的模型在 STS 基准测试中达到了所有神经模型中最佳性能，并且在两个任务中的工程特征和混合系统方面与最先进的混合系统竞争。

Apr, 2018

使用 Siamese CNN 和 LSTM 预测语义文本相似性

本文介绍了一种结合卷积神经网络和递归神经网络用于度量句子语义相似性的系统，使用卷积网络考虑单词的局部上下文和 LSTM 考虑句子的全局上下文，能够保留句子相关信息，并在句子相似性计算方面取得了良好的结果，具有和最优秀系统相竞争的优势。

Oct, 2018

语义文本相似性中的群体人类观点

本研究提出了第一个拥有约 15,000 个中文句子对和 150,000 个标签的不确定性感知语义文本相似度（STS）数据集（USTS），旨在研究 STS 中的集体人类观点。通过分析可以发现，一个标量或一个高斯分布无法充分地适应观测到的判定集合。我们进一步展示了当前的 STS 模型无法捕捉到由个别实例上的人类意见分歧引起的方差，而是反映了对整体数据集的预测置信度。

Aug, 2023

CORD19STS: COVID-19 语义文本相似度数据集

为了应对 COVID-19 大流行，本研究介绍了一种名为 CORD19STS 的数据集，其中包括从 COVID-19 开放研究数据集（CORD-19）中收集的 13,710 个注释句对，分布于不同的语义文本相似度级别，并利用 Sen-SCI-CORD19-BERT 进行了标注，其提高了自然语言处理的研究效率与准确性。

Jul, 2020

无监督语义文本相似性的句子元嵌入

本文介绍了如何通过将不同的预训练句子编码器组合成句子元嵌入来解决无监督的语义文本相似性（STS）任务，我们在句子级别应用、扩展和评估了来自单词嵌入文献的不同元嵌入方法，并在 STS 基准测试和 STS12-STS16 数据集上设置了新的无监督状态，平均提高了 3.7% 至 6.4% Pearson 的 r 值。

Nov, 2019