基于嵌入的无监督词汇语义变化检测
本文介绍我们在 SemEval2020 任务 1 中创造性的提出了语义变化检测方法,该方法是全自动的,不需要人工干预,且独立于语言;我们利用标准相关分析和正交变换计算语义空间之间的线性变换,并通过比较早期和晚期语料库中目标单词的向量之间的余弦相似度来检测语义变化。
Nov, 2020
第一项共享任务的结果,提供了评估框架和高质量的英语,德语,拉丁语和瑞典语手动注释数据集,解决了词汇语义变化检测领域中评估问题的压力,并吸引了 33 个团队提交了 186 个系统。
Jul, 2020
该研究应用上下文化词嵌入到 SemEval-2020 Shared Task 1 的词汇语义变化检测中,着重于子任务 2,在两种上下文化体系结构(BERT 和 ELMo)和三种变化检测算法方面,分析了其性能。我们发现,最有效的算法依赖于平均令牌嵌入之间的余弦相似度和令牌嵌入之间的成对距离。他们比强基线模型高出很大的差距,但是有趣的是,选择特定算法取决于测试集中金标准分数的分布。
Apr, 2020
本文提出从变化检测到变化发现的新方向,重点在于发现全文词汇中的新单词含义变化。通过对最近发表的德语数据进行深度调整,研究人员证明了两种模型都可以成功地应用于发现正在经历含义变化的新单词。此外,还提供一个几乎全自动化的框架用于评估和发现。
Jun, 2021
本文提出了一种自监督的方法,通过在输入语料库中引入单词向量的扰动来生成训练样本,用于模拟词汇语义变化,以及通过任何对齐方法检测语义变化并选择基准词,具有很大的改进潜力,并在三种不同数据集上进行实验结果展示。
Jan, 2021
本文提出了第一种使用上下文词表示进行无监督词汇语义变化的方法。利用 BERT 神经语言模型来获取单词用法的表示,将这些表示聚类到用法类型,并用三种提出的度量方式衡量关于时间的变化。创造了一个新的评估数据集,并表明模型表示和检测到的语义转移与人类判断之间呈正相关。 extensive 的定性分析表明,我们的方法捕捉了各种同步和历时语言现象。我们期望我们的工作将激发进一步的研究。
Apr, 2020
本文通过对词汇语义分歧的跨学科大规模评估,在时间尺度和领域范畴两方面开展语义感知变化的检测,并通过集成和扩展基准模型来解决评估历程中表面性和缺乏比较的挑战。此外,本文还展示了利用相同的评估方式和建模方法可以成功地应用于术语提取领域异构感知偏离的同步性检测。
Jun, 2019
本文研究使用基于上下文嵌入方法进行检测历时语义变化的可能存在的输出错误。通过引入单一方法并进行深入的分析,作者发现这种方法可能会将词汇的词典含义变化与上下文语境的变化混淆,同时将词汇实体的句法和语义方面合并在一起。本文提出了一些解决这些问题的未来可能方案。
Aug, 2022
通过使用已有的 Word-in-Context(WiC)数据集,我们提出了一种监督式的两阶段语义变化检测(SCD)方法,该方法可预测给定目标词在两个不同文本语料库中是否改变其意义。实验证明,我们的方法在多个语言的多个基准数据集上始终优于以前提出的 SCD 方法,为 SCD 领域建立了新的最先进技术。有趣的是,我们的研究结果暗示,存在着与语义变化相关的专门维度,在意义感知嵌入空间中承载信息。
Mar, 2024
自动语义变化方法旨在通过分析词语在历时语料库中的使用来识别其含义随时间的变化。本文分析了在真实的英语和罗马尼亚数据集上创建静态和上下文词嵌入模型(Word2Vec 和 ELMo)的不同策略。通过对英语数据集(SEMEVAL-CCOHA)进行评估,并针对罗马尼亚数据集进行实验来确定模型的性能,并突出该低资源语言中语义变化的不同方面,如含义的获取与丧失。实验结果表明,在选择模型和计算语义变化得分的距离方面,取决于语料库,这是最重要的因素。
Aug, 2023