COS960：960 个中文词语相似度数据集

Jun, 2019

COS960：960 个中文词语相似度数据集

COS960: A Chinese Word Similarity Dataset of 960 Word Pairs

Junjie Huang, Fanchao Qi, Chenghao Yang, Zhiyuan Liu, Maosong Sun

TL;DR本文提出了一个基于中文词汇的数据集 COS960，用于测试两个及以上由两个以上语素构成的词汇的相似度。我们详细描述了数据集的构建过程和标注过程，并对一系列词嵌入模型进行了测试。

Abstract

word similarity computation is a widely recognized task in the field of lexical semantics. Most proposed tasks test on similarity of word pairs of single morpheme, while few works focus on words of two

发现论文，激发创造

上下文比对：使用度量张量提高余弦相似度测量

本文中，我们提出了使用扩展余弦相似度测量来提高单词相似度任务的性能，我们还探索了这种方法在上下文相同的情况下特别有效的假设，并使用了不同的数据集来进行测试。测试结果显示，使用本文提出的方法可以显著提高相似度任务的性能。

Mar, 2022

利用众包进行网络挖掘的日中平行语料库

使用众包的方法，我们从包含平行文档的双语网站收集了超过 10,000 个 URL 对（平行顶级页面对），并从这些网站创建了一个包含 4.6M 个句对的日语 - 中文平行语料库。我们使用了一个包含 160K 个词对的日语 - 中文双语词典进行文档和句子对齐。随后，我们使用 1.2M 条高质量的日语 - 中文句对训练了一个基于统计语言模型和词汇翻译概率的平行语料库过滤器。我们将在这 4.6M 个句对上训练的模型的翻译准确度与在全球网络挖掘的平行语料库 CCMatrix（12.4M）上训练的模型的准确度进行了比较。尽管我们的语料库只有 CCMatrix 的三分之一大小，但我们发现这两个模型的准确度相当，证实了使用众包进行平行数据的网络挖掘是可行的。

May, 2024

介绍两个用于评估（不）相似性和相关度语义模型的越南语数据集

我们提供了两个新颖的数据集 (ViCon 和 ViSim-400) 来评估越南语这种低资源语言的语义相似性模型，其中 ViCon 包括了各种词类中的同义词和反义词对，ViSim-400 则提供了人工评定的五种语义关系的相似程度，这两个数据集经过标准的共现和神经网络模型验证，显示出与相应英文数据集相媲美的结果。

Apr, 2018

CoSimLex: 一种在上下文中评估分级词语相似度的资源

本文旨在填补对上下文依赖词向量表示评估的空白，介绍了一个新数据集 CoSimLex，它提供了基于上下文的相似度量，不仅涵盖了单词意义上的离散差异，而且涵盖了更微妙、更连续程度的意义变化，并且覆盖了不只一个语言。

Dec, 2019

LyricSIM：西班牙歌词相似性检测的新数据集与基准

本文介绍了一个用于歌词语义相似度任务的新数据集和基准。通过一项集体注释实验，我们获得了 676 个高质量的注释对，并评估了各种最先进的单语和多语言语言模型的性能，以建立未来学术和工业应用的基准结果。

Jun, 2023

自然语言处理和心语言学的桥梁：计算基础的巴斯克语和西班牙语语义相似性和关联数据集

本文介绍了一个基于 NLP 资源的语义相似性数据集，用于填补心理语言学研究中的空白，并通过提供大量受词汇处理中起重要作用的变量控制的名词对的语义相似性的各种量化方式。

Apr, 2023

CORD19STS: COVID-19 语义文本相似度数据集

为了应对 COVID-19 大流行，本研究介绍了一种名为 CORD19STS 的数据集，其中包括从 COVID-19 开放研究数据集（CORD-19）中收集的 13,710 个注释句对，分布于不同的语义文本相似度级别，并利用 Sen-SCI-CORD19-BERT 进行了标注，其提高了自然语言处理的研究效率与准确性。

Jul, 2020

历史英语语义相似性巨大数据集

该研究利用来自当地美国报纸的新数字化文章创建了一个巨大的语义相似性数据集，并利用深度神经方法检测了这些文章中的正面语义相似性对。该语义相似性数据集跨足了 70 年，包含近 400M 个正面语义相似性对，随着时间跨度的增加，将有助于将对比训练的语义相似性模型应用于各种任务。

Jun, 2023

SPair-71k：用于语义对应的大规模基准测试数据集

该论文提出一种新的大规模基准数据集 SPair-71k 用于在计算机视觉领域解决语义对应问题，其中包含大量变化视角和尺度的图像，从而为解决语义对应问题提供了可靠的测试基础和促进此领域的进一步发展。

Aug, 2019

构建一个日语单词相似度数据集

本研究构建了一个日语单词相似性数据集，是目前唯一可用于评估分布式单词表示在日语中的有效资源，包括各种词性和生僻词汇在内，该数据集的建立是对分布式单词表示在日语中评估的一次有益尝试。

Mar, 2017