语义文本相似性中的群体人类观点

Aug, 2023

语义文本相似性中的群体人类观点

Collective Human Opinions in Semantic Textual Similarity

Yuxia Wang, Shimin Tao, Ning Xie, Hao Yang, Timothy Baldwin...

TL;DR本研究提出了第一个拥有约 15,000 个中文句子对和 150,000 个标签的不确定性感知语义文本相似度（STS）数据集（USTS），旨在研究 STS 中的集体人类观点。通过分析可以发现，一个标量或一个高斯分布无法充分地适应观测到的判定集合。我们进一步展示了当前的 STS 模型无法捕捉到由个别实例上的人类意见分歧引起的方差，而是反映了对整体数据集的预测置信度。

Abstract

Despite the subjective nature of semantic textual similarity (STS) and pervasive disagreements in STS annotation, existing benchmarks have used averaged human ratings as the gold standard. Averaging masks the true distribution of →

semantic textual similarity human opinions uncertainty-aware sts dataset chinese sentence pairs variance caused by human disagreement

发现论文，激发创造

CSTS: 条件语义文本相似度

通过提出一种新的条件语义文本相似度任务 (conditional STS，C-STS)，旨在找到一个针对性的自然语言条件方面来测量句子之间的相似度，可以减少 STS 的主观性和模糊性并利用多样的条件实现细粒度的相似度评估，并使用各种最先进的模型证明了 C-STS 的挑战性。

May, 2023

SemEval-2017 任务 1：语义文本相似度 - 多语言和跨语言聚焦评估

研究了句子的语义文本相似度，旨在评估现有模型的性能和限制，并提出一个新的 STS 基准用于对语义表示的研究。

Jul, 2017

不同语言配对机器翻译的一致人工评估

提出一种新的指标 XSTS，用于语义等效性评估，以及一种跨语言校准方法，旨在解决人类评估过程中存在的问题。在涉及 14 种语言对的大规模评估中进行验证，证明了其有效性。

May, 2022

基于语言条件的语义文本相似度

通过重新注释 C-STS 验证集，并经过全面的数据集分析，我们改进了 C-STS 任务，利用模型理解 QA 任务设置中的条件，从而生成答案，并提出了一种自动错误识别流水线，能够以 80% 以上的 F1 得分识别 C-STS 数据中的注释错误。此外，我们还提出了一种新方法，通过将答案与模型进行训练，大大提高了 C-STS 数据上的性能。最后，我们讨论了基于实体类型的条件性注释方法，并展示了实例中，基于类型 - 特征结构 (TFS) 的方法能够为构建具有新条件的 C-STS 数据提供语言基础。

Jun, 2024

可解释的语义文本相似度：发现并解释句子之间的差异

本文研究了在语义文本相似度（STS）的基础上添加可解释性层，通过分析句对之间的对齐关系，给出了一种可度量关系的方法。同时，作者提供了一个公共的数据集来评估系统性能，研究表明该方法可用于进行自然语言的解释并提高用户的接受度。

Dec, 2016

MedSTS：一份用于临床语义文本相似度的资源

通过医疗语料库 MedSTS，本研究旨在组建一种应用于医疗领域的语义文本相似度资源，为今后通过利用自然语言处理技术实现临床决策提供便利。

Aug, 2018

从对话学习语义文本相似度

本论文通过学习使用对话数据学习句子级语义相似性的新方法，利用无监督模型预测对话输入响应对以训练，导出的句子嵌入在语义文本相似性基准测试和 SemEval 2017 的 CQA 问题相似性子任务上表现良好。通过介绍同时进行对话输入响应预测任务和自然语言推理任务的多任务训练来进一步改善性能。广泛的实验显示，所提出的模型在 STS 基准测试中达到了所有神经模型中最佳性能，并且在两个任务中的工程特征和混合系统方面与最先进的混合系统竞争。

Apr, 2018

基于组合短语语义的无监督句子文本相似度

本文针对各种领域但仅需要最少的数据和计算资源的无监督 STS 提出了一种轻量级的 Expectation-Correction (EC) 公式来计算 STS，此方法包括通过组合多个递归 EC 公式来捕捉组合短语语义的 Recursive Optimal Transport Similarity (ROTS) 算法，这比之前的方法更有效和可扩展，并通过对 29 个 STS 任务的详细消融研究证明了此方法的有效性。

Oct, 2022

从集体人类意见中我们能学到自然语言推理数据的什么？

通过 ChaosNLI 数据集，该研究发现人们在 NLI 评估中存在高度的主观性，新颖度极强的数据集会导致现有模型表现不佳，并提出了考虑人类评价的分布的新评估指标。

Oct, 2020

语义相似度预测优于其他语义相似度度量

使用经过微调的模型准确预测语义相似度，以测量自然语言文本之间的语义相似度，与传统的基于子序列重叠或嵌入的方法相比，效果更好。

Sep, 2023