历时词向量和语义漂移：一项调查

COLINGJun, 2018

历时词向量和语义漂移：一项调查

Diachronic word embeddings and semantic shifts: a survey

Andrey Kutuzov, Lilja Øvrelid, Terrence Szymanski, Erik Velldal

TL;DR本文综述了当前关于使用预测型词嵌入模型追踪词汇语义时序变化和语义漂移检测的学术研究现状，并讨论了该领域的挑战和应用前景。

Abstract

Recent years have witnessed a surge of publications aimed at tracing temporal changes in lexical semantics using distributional methods, particularly prediction-based word embedding models. However, this vein of research lacks the cohesion, common terminology and shared practices of more established areas of →

word embeddings semantic shifts diachronic nlp natural language processing

发现论文，激发创造

利用语境嵌入检测历时语义转移

本文提出了一种新的方法，通过从 BERT 嵌入生成特定时间的单词表示来利用上下文嵌入进行历时语义变化检测。我们的实验结果表明，该方法在特定领域的 LiverpoolFC 语料库中具有与当前最先进技术相当的性能，无需在大型语料库上进行任何耗时的领域自适应。我们的结果表明该方法可以成功地用于检测短期年度语义漂移，并在多语言环境中展示了有前途的结果。

Dec, 2019

利用词向量追踪俄语文化历时语义变化：测试集和基准

介绍了手动注释的测试集，用于跟踪俄语中的历时语义转变，并通过分布式词嵌入模型来自动检测具有强烈或微妙社会和文化变化的名词和形容词词义，提供了实体间语义演变检测的算法和比分。

May, 2019

随时间演变的词嵌入揭示语义变化的统计规律

通过评估 PPMI，SVD 和 word2vec 等词嵌入模型来量化语义变化的方法，我们提出并验证了语义演化的两个定量化规律：与频率呈反幂律相关的语义变化率规律和与多义性无关的语义变化率规律。

May, 2016

上下文化语言模型用于语义变化检测：经验教训

本文研究使用基于上下文嵌入方法进行检测历时语义变化的可能存在的输出错误。通过引入单一方法并进行深入的分析，作者发现这种方法可能会将词汇的词典含义变化与上下文语境的变化混淆，同时将词汇实体的句法和语义方面合并在一起。本文提出了一些解决这些问题的未来可能方案。

Aug, 2022

动态词向量用于演化中的语义发现

该研究通过发展一种动态统计模型学习时态感知的词向量表示，并实现了 “对齐问题” 的解决，从而可以可靠地捕捉时间上的语言演变，并在语义准确性和对齐质量方面持续优于现有的时间嵌入方法。

Mar, 2017

词汇语义变化的计算方法综述

介绍了最近计算技术中应用到词汇语义变化的方法与工具，着重研究了语义变化的历时概念变化扩展。

Nov, 2018

在词使用中捕获进化：只需增加更多聚类吗？

本文旨在研究语义演变在文本数据中的检测与分析方法，特别是基于上下文嵌入的新方法，通过对比多个方法的表现以及提出相关改进策略，显著提高了现有方法的性能。

Jan, 2020

DUKweb：基于英国网络档案馆语料库的历时词表示

本文介绍了 DUKweb 数据库，它是一个大规模的资源集，用于对当代英语进行历时分析。该资源集可以提供每年的词共现矩阵和两种类型的词向量表示。我们通过一个词义变化检测的案例研究展示了 DUKweb 的重用潜力和质量标准。

Jul, 2021

基于语言模型的嵌入方式测量文本的分布变化优势

利用大型语言模型（LLMs）生成的嵌入向量，我们提出了一种基于聚类的算法来测量文本数据的分布漂移，并通过实验证明其对于数据漂移的敏感性比其他嵌入方法更高。我们还提出了数据漂移敏感性作为衡量语言模型的重要评估指标，并从 18 个月的实际部署中总结了经验教训。

Dec, 2023

评估语义变化的句子嵌入模型的比较研究

分析语义变化的模式在长篇实际文本（如书籍或记录）中是有趣的，从文体、认知和语言的角度来看。这项研究也对应用领域，如文本分段、文档摘要和语义新颖性检测是有用的。本文通过时间序列的语义相似性以及多本文学作品的两两句子相似性矩阵比较了几种最近的句子嵌入方法。与以前使用目标任务和精心策划的数据集比较句子嵌入方法的研究不同，我们的方法提供了对方法在现实情境的评估。我们发现，大部分句子嵌入方法确实能够在给定文档中推断出高度相关的语义相似性模式，但也存在有趣的差异。

Aug, 2023