MedSTS:一份用于临床语义文本相似度的资源
研究了句子的语义文本相似度,旨在评估现有模型的性能和限制,并提出一个新的 STS 基准用于对语义表示的研究。
Jul, 2017
通过重新注释 C-STS 验证集,并经过全面的数据集分析,我们改进了 C-STS 任务,利用模型理解 QA 任务设置中的条件,从而生成答案,并提出了一种自动错误识别流水线,能够以 80% 以上的 F1 得分识别 C-STS 数据中的注释错误。此外,我们还提出了一种新方法,通过将答案与模型进行训练,大大提高了 C-STS 数据上的性能。最后,我们讨论了基于实体类型的条件性注释方法,并展示了实例中,基于类型 - 特征结构 (TFS) 的方法能够为构建具有新条件的 C-STS 数据提供语言基础。
Jun, 2024
通过提出一种新的条件语义文本相似度任务 (conditional STS,C-STS),旨在找到一个针对性的自然语言条件方面来测量句子之间的相似度,可以减少 STS 的主观性和模糊性并利用多样的条件实现细粒度的相似度评估,并使用各种最先进的模型证明了 C-STS 的挑战性。
May, 2023
为了应对 COVID-19 大流行,本研究介绍了一种名为 CORD19STS 的数据集,其中包括从 COVID-19 开放研究数据集(CORD-19)中收集的 13,710 个注释句对,分布于不同的语义文本相似度级别,并利用 Sen-SCI-CORD19-BERT 进行了标注,其提高了自然语言处理的研究效率与准确性。
Jul, 2020
本文研究了在语义文本相似度(STS)的基础上添加可解释性层,通过分析句对之间的对齐关系,给出了一种可度量关系的方法。同时,作者提供了一个公共的数据集来评估系统性能,研究表明该方法可用于进行自然语言的解释并提高用户的接受度。
Dec, 2016
本文介绍了一种在医疗领域中处理语义文本相似度的图增强循环学习框架。该框架可以方便地在最先进的基础语言模型上实现,并通过使用基于图卷积网络的辅助网络同步训练,利用领域知识来提高其性能。研究结果表明,引入 GCN 和同步训练框架的领域知识,分别将 Bio-clinical BERT 的基准线提高了 16.3% 和 27.9%。
Aug, 2022
本研究提出了第一个拥有约 15,000 个中文句子对和 150,000 个标签的不确定性感知语义文本相似度(STS)数据集(USTS),旨在研究 STS 中的集体人类观点。通过分析可以发现,一个标量或一个高斯分布无法充分地适应观测到的判定集合。我们进一步展示了当前的 STS 模型无法捕捉到由个别实例上的人类意见分歧引起的方差,而是反映了对整体数据集的预测置信度。
Aug, 2023
本文针对各种领域但仅需要最少的数据和计算资源的无监督 STS 提出了一种轻量级的 Expectation-Correction (EC) 公式来计算 STS,此方法包括通过组合多个递归 EC 公式来捕捉组合短语语义的 Recursive Optimal Transport Similarity (ROTS) 算法,这比之前的方法更有效和可扩展,并通过对 29 个 STS 任务的详细消融研究证明了此方法的有效性。
Oct, 2022