XL-WiC: 用于评估语义上下文的多语言基准
本文阐述了词嵌入无法建模词语语义动态性的限制,并介绍了若干种解决该问题的方法,例如 sense embeddings 和 contextualized embeddings,同时指出目前缺乏适合评估动态语义的基准的不足,因此通过专家注释提出了具有广泛评估价值的大规模上下文感知语义数据集 WiC.
Aug, 2018
介绍了 WiC-TSV—— 一个新的多领域评估基准,用于词义消歧的目标语义检验框架。利用最新的语言模型在数据集上设置基线性能,并且实验结果表明即使这些模型可以在任务上表现得相当不错,但是在跨领域设置中机器和人类性能之间仍然存在差距。
Apr, 2020
本文提出了关于 Word-in-Context (WiC)和 word sense disambiguation(WSD)的新假设,并应用理论计算机科学工具表明了 WiC、WSD 和 target sense verification(TSV)三个语义分类问题之间的等价关系,通过实验证明了问题的彼此转化的可行性。
Jul, 2021
本文首次定量分析各大语境词汇语义任务中正在测试的语境词交互。结果表明,与人类在这些任务中完全不同,现有数据集在测试预训练上下文化模型时存在极端偏差,需要更好地理解模型与人类之间的差距。本文提出了一种框架以更好地理解和控制这些偏差,以进行模型解释和未来任务设计。
Dec, 2021
本文介绍了解决 SemEval 2021 任务 2 的方法,即多语言和跨语言上下文词义消歧。通过使用预训练的基于 Transformer 的语言模型,包括 ELECTRA 和 ALBERT,对英语任务和 XLM-R 对所有其他任务进行微调,通过添加信号和数据增强来提高性能,在 Multilingual 任务中取得强的性能,在 Cross-Lingual 设置中实现零射击方法,使用我们的多语言模型,后者表现略好。
Apr, 2021
现有的 LSC 问题评估通常集中在 Graded Change Detection (GCD) 任务上,但由于它们依赖不同的设置,性能比较往往会误导。本研究在相同的条件下评估了最先进的 GCD 模型和方法,并将 LSC 问题分解为 Word-in-Context (WiC) 和 Word Sense Induction (WSI) 任务,在不同语言上对八个可用的 LSC 基准进行了比较,表明 (i) APD 在 GCD 方面优于其他方法;(ii) XL-LEXEME 在 WiC、WSI 和 GCD 方面优于其他上下文化模型,与 GPT-4 相当;(iii) 需要明确改进词义建模以及关注词义变化的方式、时间和原因,而不仅仅关注语义变化的程度。
Feb, 2024
本研究提出了 AM2iCo 用于多语言和跨语言的词汇语义评估,旨在研究最先进的预训练文本表示模型在理解跨语言环境下的词意识别方面的能力,结果显示当前预训练编码器表现与人类性能存在明显差距,尤其体现在低资源语言和与英语不同的语言上。
Apr, 2021
本篇论文介绍了 WiLI-2018 基准数据集,它是一个用于单语文本识别的公开免费数据集,包含来自维基百科的 1000 个段落,涵盖了 235 种语言,为分类数据集,用于确定未知主导语言的段落所属的语言。
Jan, 2018
词汇语义变化检测 (LSCD) 是一个复杂的基于词元级的任务,它通常是基于两个后续应用的用法级任务来操作的:首先,对使用对生成上下文的词 (WiC) 进行标注,然后将这些标签表示为图形,在图上应用词义归纳 (WSI) 来生成语义聚类。最后,通过比较不同时期的语义聚类来得到 LSCD 的标签。这种模块化体现在大多数 LSCD 数据集和模型中,它也导致建模选项和任务定义的异质性很大,而这种异质性又被各种数据集版本、预处理选项和评估指标所加剧。这种异质性使得很难在可比较的条件下评估模型,选择最佳的模型组合或者复现结果。因此,我们提供了一个标准化 LSCD 评估的基准库。通过透明的实现,结果变得易于复现,并且通过标准化不同组件可以自由组合。该库反映了该任务的模块化特性,允许对 WiC、WSI 和 LSCD 进行模型评估。这为对越来越复杂的模型组件进行仔细评估提供了新的优化方式。
Mar, 2024
我们提倡在跨语言零 - shot 词义消歧中使用大型预训练单语语言模型,并结合一种上下文映射机制。我们通过字典学习过程获得了稀疏上下文化词表示,并进行了严格的实验,证明了上述改进带来了显著的提升,平均 F 分数增加了近 6.5 个百分点(从 62.0 增加到 68.5),涵盖了 17 种语言。我们在此网址发布了复制实验的源代码。
Jul, 2023