在词使用中捕获进化:只需增加更多聚类吗?
本文提出了第一种使用上下文词表示进行无监督词汇语义变化的方法。利用 BERT 神经语言模型来获取单词用法的表示,将这些表示聚类到用法类型,并用三种提出的度量方式衡量关于时间的变化。创造了一个新的评估数据集,并表明模型表示和检测到的语义转移与人类判断之间呈正相关。 extensive 的定性分析表明,我们的方法捕捉了各种同步和历时语言现象。我们期望我们的工作将激发进一步的研究。
Apr, 2020
该研究提出了一种基于图的聚类方法,旨在捕捉各种高频和低频单词感知的微妙变化,包括这些感知随时间的获得和丧失。实验结果表明,该方法在四种语言的 SemEval2020 二元分类任务中显著超过了以前的方法。此外,我们展示了该方法作为一种多功能可视化工具,在语言内部和语言之间设置中检测语义变化的能力。我们已公开提供代码和数据。
Feb, 2024
本文讨论了关于词汇语义变化检测的方法,并提出了使用基于 BERT 的上下文化嵌入来对每个目标词的不同出现之间进行聚类,从而量化每个目标词的语义变化水平的方法,并在四种目标语言中取得了良好的表现,超过了所有提供的 SemEval 基线。
Oct, 2020
该研究通过发展一种动态统计模型学习时态感知的词向量表示,并实现了 “对齐问题” 的解决,从而可以可靠地捕捉时间上的语言演变,并在语义准确性和对齐质量方面持续优于现有的时间嵌入方法。
Mar, 2017
本文研究使用基于上下文嵌入方法进行检测历时语义变化的可能存在的输出错误。通过引入单一方法并进行深入的分析,作者发现这种方法可能会将词汇的词典含义变化与上下文语境的变化混淆,同时将词汇实体的句法和语义方面合并在一起。本文提出了一些解决这些问题的未来可能方案。
Aug, 2022
使用上下文嵌入测量语义变化的简化方法,仅依赖于最可能替代被遮盖术语的方法,不仅这种方法可直接解释,而且在存储效率、性能及变化细致调查方面均表现优越。
Sep, 2023
该研究应用上下文化词嵌入到 SemEval-2020 Shared Task 1 的词汇语义变化检测中,着重于子任务 2,在两种上下文化体系结构(BERT 和 ELMo)和三种变化检测算法方面,分析了其性能。我们发现,最有效的算法依赖于平均令牌嵌入之间的余弦相似度和令牌嵌入之间的成对距离。他们比强基线模型高出很大的差距,但是有趣的是,选择特定算法取决于测试集中金标准分数的分布。
Apr, 2020
利用自动生成的自然语言定义,将上下文单词用法作为可解释的词和词义表示。使用 Flan-T5 语言模型生成每个用法的定义,从用法簇中选择最典型的定义作为词义标签,可在语义变化分析中进行应用。此外,上下文定义在 NLP 中的单词语境语义相似性判断中优于令牌或用法句子嵌入,是一种新的有前途的词汇表示类型。
May, 2023
本文提出了一种新的方法,通过从 BERT 嵌入生成特定时间的单词表示来利用上下文嵌入进行历时语义变化检测。我们的实验结果表明,该方法在特定领域的 LiverpoolFC 语料库中具有与当前最先进技术相当的性能,无需在大型语料库上进行任何耗时的领域自适应。我们的结果表明该方法可以成功地用于检测短期年度语义漂移,并在多语言环境中展示了有前途的结果。
Dec, 2019