SemEval-2017 任务 1:语义文本相似度 - 多语言和跨语言聚焦评估
本文研究了在语义文本相似度(STS)的基础上添加可解释性层,通过分析句对之间的对齐关系,给出了一种可度量关系的方法。同时,作者提供了一个公共的数据集来评估系统性能,研究表明该方法可用于进行自然语言的解释并提高用户的接受度。
Dec, 2016
通过重新注释 C-STS 验证集,并经过全面的数据集分析,我们改进了 C-STS 任务,利用模型理解 QA 任务设置中的条件,从而生成答案,并提出了一种自动错误识别流水线,能够以 80% 以上的 F1 得分识别 C-STS 数据中的注释错误。此外,我们还提出了一种新方法,通过将答案与模型进行训练,大大提高了 C-STS 数据上的性能。最后,我们讨论了基于实体类型的条件性注释方法,并展示了实例中,基于类型 - 特征结构 (TFS) 的方法能够为构建具有新条件的 C-STS 数据提供语言基础。
Jun, 2024
通过提出一种新的条件语义文本相似度任务 (conditional STS,C-STS),旨在找到一个针对性的自然语言条件方面来测量句子之间的相似度,可以减少 STS 的主观性和模糊性并利用多样的条件实现细粒度的相似度评估,并使用各种最先进的模型证明了 C-STS 的挑战性。
May, 2023
使用基于语法、字典、上下文和机器翻译的多种方法,并采用无监督和有监督的方式组合,我们的最佳运行在 SemEval-2017 的 STS Track4a 中排名第一,与人类注释的相关性达到 83.02%。
Apr, 2017
通过医疗语料库 MedSTS,本研究旨在组建一种应用于医疗领域的语义文本相似度资源,为今后通过利用自然语言处理技术实现临床决策提供便利。
Aug, 2018
本论文通过学习使用对话数据学习句子级语义相似性的新方法,利用无监督模型预测对话输入响应对以训练,导出的句子嵌入在语义文本相似性基准测试和 SemEval 2017 的 CQA 问题相似性子任务上表现良好。通过介绍同时进行对话输入响应预测任务和自然语言推理任务的多任务训练来进一步改善性能。广泛的实验显示,所提出的模型在 STS 基准测试中达到了所有神经模型中最佳性能,并且在两个任务中的工程特征和混合系统方面与最先进的混合系统竞争。
Apr, 2018
本文针对各种领域但仅需要最少的数据和计算资源的无监督 STS 提出了一种轻量级的 Expectation-Correction (EC) 公式来计算 STS,此方法包括通过组合多个递归 EC 公式来捕捉组合短语语义的 Recursive Optimal Transport Similarity (ROTS) 算法,这比之前的方法更有效和可扩展,并通过对 29 个 STS 任务的详细消融研究证明了此方法的有效性。
Oct, 2022
本文介绍了一种基于注意力机制的循环神经网络模型,该模型在 2017 年 SemEval 跨语言语义文本相似度(STS)任务中取得了竞争性表现(前六名),并描述了我们参加跨语言 STS 任务的情况,该任务涉及英语、西班牙语和阿拉伯语的相似度比较。
Mar, 2017
介绍了 vSTS 数据集,该数据集使用多模态信息来测量文本相似性,包含图像及其文本说明,并描述了该数据集的定量和定性信息,同时提出它是用于测量自动多模态文本相似性系统的有效黄金标准,并对结合多模态信息的数据进行了初步实验。
Sep, 2018
提出一种新的指标 XSTS,用于语义等效性评估,以及一种跨语言校准方法,旨在解决人类评估过程中存在的问题。在涉及 14 种语言对的大规模评估中进行验证,证明了其有效性。
May, 2022