历时用法关联(DURel):词汇语义变化标注框架
DURel 是一个实现语义接近性注释的在线开源工具,支持标准化人工注释和计算机注释,并基于最新的上下文词模型进行建模。注释者的判断通过自动图聚类技术进行聚类,并可视化进行分析。该工具提供附加功能,用于比较注释者之间的一致性,以确保获得的判断具有主观性,并计算总结统计信息,从而洞察词义频率分布、语义变化或词义随时间的变化。
Nov, 2023
本文描述了基于 10 万个人类语义接近度判断的四种语言的等级背景下的历时词汇意义注释的最大资源的创建过程,包括多轮增量注释过程,聚类算法选择将用法分组为意义的可能性以及数据集的历时和同步用法。
Apr, 2021
历史语言学家确定了多种形式的词汇语义变化。我们提出了一个三维框架,用于整合这些形式,并提供了一种统一的计算方法来同时评估它们。这个框架能够经济、系统地绘制词汇语义变化,并在计算社会科学中应用。我们对两个语料库中的心理健康和心理疾病的语义转变进行了分析,展示了关于病态化、社会污名化和概念蔓延的当代关注的语义变化模式。
Jun, 2024
通过构建模型,本文提出一种检测词义变化类型的方法,利用同步词汇关系和词义定义的信息,通过在 WordNet 上使用同义词集定义和层次信息,在 Blank(1997)的语义变化类型数据集的数字化版本上进行测试,最后展示了感觉关系如何提高语义相关性和二元词汇语义变化检测的模型。
Jun, 2024
本文介绍了 DUKweb 数据库,它是一个大规模的资源集,用于对当代英语进行历时分析。该资源集可以提供每年的词共现矩阵和两种类型的词向量表示。我们通过一个词义变化检测的案例研究展示了 DUKweb 的重用潜力和质量标准。
Jul, 2021
该篇研究论文通过使用 BERT 模型进行有监督和无监督的学习方法,在 SemRel-2024 任务中取得了显著的结果,包括在 MSA 中获得了 0.49 的 Spearman 相关系数的第一名,以及在摩洛哥语和阿尔及利亚语中分别获得了 0.83 和 0.53 的高分。
May, 2024
本文旨在通过对多种深层句法框架的分析,提出一组通用的语义角色标签建议,并将其应用于语言数据。建议基于多种理论语言观点,主要聚焦于 Meaning-Text Theory 和 Functional Generative Description 框架。数据来自西班牙语、加泰罗尼亚语、捷克语和英语。建议旨在面向 Universal Dependencies,并将通用语义角色标签用于 UD 数据。
Mar, 2023
探索和量化语义相关性对于表示语言至关重要,它对各种 NLP 任务具有重要意义,包括提供关于大型语言模型能力和性能的见解。本文介绍了 SemRel,这是一个由母语为 14 种语言的本土人士进行注释的新的语义相关性数据集收集项目。每个实例都是一个句子对,并与表示两个句子之间语义文本相关性程度的分数相关联。分数是通过比较性注释框架获得的。我们描述了数据收集和注释过程、构建数据集时的相关挑战以及它们在 NLP 中的影响和实用性。我们还报告了对每种语言以及不同语言之间进行的实验。
Feb, 2024
通过评估 PPMI,SVD 和 word2vec 等词嵌入模型来量化语义变化的方法,我们提出并验证了语义演化的两个定量化规律:与频率呈反幂律相关的语义变化率规律和与多义性无关的语义变化率规律。
May, 2016