LSCDiscovery 中的 BOS: 用于可解释的词汇语义变化检测的词汇替换
本文介绍了在西班牙语中关于语义变化发现和检测的首个共享任务,并使用 DURel 框架手动注释了西班牙语单词的第一个数据集。该任务分为两个阶段:1)分级变化检测,2)二元变化检测。共有六个团队参加了第一阶段,七个团队参加了第二阶段,最佳结果在第一阶段获得了 0.735 的 Spearman 等级相关性,第二阶段获得了 0.716 的 F1 分数。本文介绍了参赛团队开发的系统,强调了特别有用的技术,并讨论了这些方法的局限性。
May, 2022
第一项共享任务的结果,提供了评估框架和高质量的英语,德语,拉丁语和瑞典语手动注释数据集,解决了词汇语义变化检测领域中评估问题的压力,并吸引了 33 个团队提交了 186 个系统。
Jul, 2020
本文提出从变化检测到变化发现的新方向,重点在于发现全文词汇中的新单词含义变化。通过对最近发表的德语数据进行深度调整,研究人员证明了两种模型都可以成功地应用于发现正在经历含义变化的新单词。此外,还提供一个几乎全自动化的框架用于评估和发现。
Jun, 2021
本文介绍我们在 SemEval2020 任务 1 中创造性的提出了语义变化检测方法,该方法是全自动的,不需要人工干预,且独立于语言;我们利用标准相关分析和正交变换计算语义空间之间的线性变换,并通过比较早期和晚期语料库中目标单词的向量之间的余弦相似度来检测语义变化。
Nov, 2020
利用大型语言模型生成的上下文词定义作为语义表示,通过比较不同时间段内目标词的分布来检测词汇语义改变的任务中,我们发现生成的定义足够特定和普遍,能够传达充分的信号以对单词集按照其随时间的语义变化程度进行排名。同时,我们的方法在无监督的基于意义的词汇语义变化检测方法中达到或超过了先前的水平。这一方法保持可解释性,允许检查特定转变背后的原因,基于离散的定义作为意义。这是朝着可解释的语义变化建模的又一步。
Jun, 2024
我们通过研究由词汇替换引入的意外上下文的影响,建模了语义变化,并提出了一种替换模式作为可解释的语义变化模型,同时还首次评估了使用 LLaMa 进行语义变化检测的方法。
Apr, 2024
本研究介绍了称为 EmbLexChange 的系统,用于无监督检测词汇 - 语义变化的过程,并展示了该系统在使用重采样框架的情况下可靠地检测英语、德语、瑞典语和拉丁语的词汇 - 语义变化。
May, 2020
本章节介绍了在计算科学和语言学领域日益增长的兴趣中,对大规模历时文本数据建模和检测语义变化的主要方法,大多数方法都使用神经嵌入,虽然神经模型是易于建模历时文本的主要原因之一,但在解决问题的许多方面距离理想状态还有很远的路要走,该领域有着若干个开放和复杂的挑战。
Jan, 2021
通过使用已有的 Word-in-Context(WiC)数据集,我们提出了一种监督式的两阶段语义变化检测(SCD)方法,该方法可预测给定目标词在两个不同文本语料库中是否改变其意义。实验证明,我们的方法在多个语言的多个基准数据集上始终优于以前提出的 SCD 方法,为 SCD 领域建立了新的最先进技术。有趣的是,我们的研究结果暗示,存在着与语义变化相关的专门维度,在意义感知嵌入空间中承载信息。
Mar, 2024