Jun, 2023

历史英语语义相似性巨大数据集

TL;DR该研究利用来自当地美国报纸的新数字化文章创建了一个巨大的语义相似性数据集,并利用深度神经方法检测了这些文章中的正面语义相似性对。该语义相似性数据集跨足了 70 年,包含近 400M 个正面语义相似性对,随着时间跨度的增加,将有助于将对比训练的语义相似性模型应用于各种任务。