COS960:960 个中文词语相似度数据集
本文中,我们提出了使用扩展余弦相似度测量来提高单词相似度任务的性能,我们还探索了这种方法在上下文相同的情况下特别有效的假设,并使用了不同的数据集来进行测试。测试结果显示,使用本文提出的方法可以显著提高相似度任务的性能。
Mar, 2022
使用众包的方法,我们从包含平行文档的双语网站收集了超过 10,000 个 URL 对(平行顶级页面对),并从这些网站创建了一个包含 4.6M 个句对的日语 - 中文平行语料库。我们使用了一个包含 160K 个词对的日语 - 中文双语词典进行文档和句子对齐。随后,我们使用 1.2M 条高质量的日语 - 中文句对训练了一个基于统计语言模型和词汇翻译概率的平行语料库过滤器。我们将在这 4.6M 个句对上训练的模型的翻译准确度与在全球网络挖掘的平行语料库 CCMatrix(12.4M)上训练的模型的准确度进行了比较。尽管我们的语料库只有 CCMatrix 的三分之一大小,但我们发现这两个模型的准确度相当,证实了使用众包进行平行数据的网络挖掘是可行的。
May, 2024
我们提供了两个新颖的数据集 (ViCon 和 ViSim-400) 来评估越南语这种低资源语言的语义相似性模型,其中 ViCon 包括了各种词类中的同义词和反义词对,ViSim-400 则提供了人工评定的五种语义关系的相似程度,这两个数据集经过标准的共现和神经网络模型验证,显示出与相应英文数据集相媲美的结果。
Apr, 2018
本文旨在填补对上下文依赖词向量表示评估的空白,介绍了一个新数据集 CoSimLex,它提供了基于上下文的相似度量,不仅涵盖了单词意义上的离散差异,而且涵盖了更微妙、更连续程度的意义变化,并且覆盖了不只一个语言。
Dec, 2019
本文介绍了一个用于歌词语义相似度任务的新数据集和基准。通过一项集体注释实验,我们获得了 676 个高质量的注释对,并评估了各种最先进的单语和多语言语言模型的性能,以建立未来学术和工业应用的基准结果。
Jun, 2023
本文介绍了一个基于 NLP 资源的语义相似性数据集,用于填补心理语言学研究中的空白,并通过提供大量受词汇处理中起重要作用的变量控制的名词对的语义相似性的各种量化方式。
Apr, 2023
为了应对 COVID-19 大流行,本研究介绍了一种名为 CORD19STS 的数据集,其中包括从 COVID-19 开放研究数据集(CORD-19)中收集的 13,710 个注释句对,分布于不同的语义文本相似度级别,并利用 Sen-SCI-CORD19-BERT 进行了标注,其提高了自然语言处理的研究效率与准确性。
Jul, 2020
该研究利用来自当地美国报纸的新数字化文章创建了一个巨大的语义相似性数据集,并利用深度神经方法检测了这些文章中的正面语义相似性对。该语义相似性数据集跨足了 70 年,包含近 400M 个正面语义相似性对,随着时间跨度的增加,将有助于将对比训练的语义相似性模型应用于各种任务。
Jun, 2023
该论文提出一种新的大规模基准数据集 SPair-71k 用于在计算机视觉领域解决语义对应问题,其中包含大量变化视角和尺度的图像,从而为解决语义对应问题提供了可靠的测试基础和促进此领域的进一步发展。
Aug, 2019
本研究构建了一个日语单词相似性数据集,是目前唯一可用于评估分布式单词表示在日语中的有效资源,包括各种词性和生僻词汇在内,该数据集的建立是对分布式单词表示在日语中评估的一次有益尝试。
Mar, 2017