利用词向量追踪俄语文化历时语义变化:测试集和基准
本文提出了一种新的方法,通过从 BERT 嵌入生成特定时间的单词表示来利用上下文嵌入进行历时语义变化检测。我们的实验结果表明,该方法在特定领域的 LiverpoolFC 语料库中具有与当前最先进技术相当的性能,无需在大型语料库上进行任何耗时的领域自适应。我们的结果表明该方法可以成功地用于检测短期年度语义漂移,并在多语言环境中展示了有前途的结果。
Dec, 2019
通过评估 PPMI,SVD 和 word2vec 等词嵌入模型来量化语义变化的方法,我们提出并验证了语义演化的两个定量化规律:与频率呈反幂律相关的语义变化率规律和与多义性无关的语义变化率规律。
May, 2016
本文研究使用基于上下文嵌入方法进行检测历时语义变化的可能存在的输出错误。通过引入单一方法并进行深入的分析,作者发现这种方法可能会将词汇的词典含义变化与上下文语境的变化混淆,同时将词汇实体的句法和语义方面合并在一起。本文提出了一些解决这些问题的未来可能方案。
Aug, 2022
本文讨论了关于词汇语义变化检测的方法,并提出了使用基于 BERT 的上下文化嵌入来对每个目标词的不同出现之间进行聚类,从而量化每个目标词的语义变化水平的方法,并在四种目标语言中取得了良好的表现,超过了所有提供的 SemEval 基线。
Oct, 2020
本文探讨社交媒体中短期文本表示的漂移变化并将其与表面层的词语动态进行对比,提出了建立预测模型来预测先前含义和概念漂移的短期含义转移的新方法,并可视化关键词的短期表示转移,以发现和跟踪社交媒体中新出现词汇的含义。该研究针对 2014-2015 年的俄乌危机收集了社交媒体语料库,研究表明短期表示漂移可以准确地预测长达数周。此方法可用于探索和刻画危机事件期间流媒体语料库的特定方面,并有可能优化其他下游分类任务,包括实时事件检测。
Mar, 2017
自动语义变化方法旨在通过分析词语在历时语料库中的使用来识别其含义随时间的变化。本文分析了在真实的英语和罗马尼亚数据集上创建静态和上下文词嵌入模型(Word2Vec 和 ELMo)的不同策略。通过对英语数据集(SEMEVAL-CCOHA)进行评估,并针对罗马尼亚数据集进行实验来确定模型的性能,并突出该低资源语言中语义变化的不同方面,如含义的获取与丧失。实验结果表明,在选择模型和计算语义变化得分的距离方面,取决于语料库,这是最重要的因素。
Aug, 2023
本文介绍了一种使用词嵌入模型跟踪词对之间语义关系的时间动态的方法,采用增量学习和预测建模,并在乌普萨拉武装冲突数据集上评估了该方法的可行性和效果。
Jul, 2017