历时词向量和语义漂移:一项调查
本文提出了一种新的方法,通过从 BERT 嵌入生成特定时间的单词表示来利用上下文嵌入进行历时语义变化检测。我们的实验结果表明,该方法在特定领域的 LiverpoolFC 语料库中具有与当前最先进技术相当的性能,无需在大型语料库上进行任何耗时的领域自适应。我们的结果表明该方法可以成功地用于检测短期年度语义漂移,并在多语言环境中展示了有前途的结果。
Dec, 2019
介绍了手动注释的测试集,用于跟踪俄语中的历时语义转变,并通过分布式词嵌入模型来自动检测具有强烈或微妙社会和文化变化的名词和形容词词义,提供了实体间语义演变检测的算法和比分。
May, 2019
通过评估 PPMI,SVD 和 word2vec 等词嵌入模型来量化语义变化的方法,我们提出并验证了语义演化的两个定量化规律:与频率呈反幂律相关的语义变化率规律和与多义性无关的语义变化率规律。
May, 2016
本文研究使用基于上下文嵌入方法进行检测历时语义变化的可能存在的输出错误。通过引入单一方法并进行深入的分析,作者发现这种方法可能会将词汇的词典含义变化与上下文语境的变化混淆,同时将词汇实体的句法和语义方面合并在一起。本文提出了一些解决这些问题的未来可能方案。
Aug, 2022
该研究通过发展一种动态统计模型学习时态感知的词向量表示,并实现了 “对齐问题” 的解决,从而可以可靠地捕捉时间上的语言演变,并在语义准确性和对齐质量方面持续优于现有的时间嵌入方法。
Mar, 2017
本文旨在研究语义演变在文本数据中的检测与分析方法,特别是基于上下文嵌入的新方法,通过对比多个方法的表现以及提出相关改进策略,显著提高了现有方法的性能。
Jan, 2020
本文介绍了 DUKweb 数据库,它是一个大规模的资源集,用于对当代英语进行历时分析。该资源集可以提供每年的词共现矩阵和两种类型的词向量表示。我们通过一个词义变化检测的案例研究展示了 DUKweb 的重用潜力和质量标准。
Jul, 2021
利用大型语言模型(LLMs)生成的嵌入向量,我们提出了一种基于聚类的算法来测量文本数据的分布漂移,并通过实验证明其对于数据漂移的敏感性比其他嵌入方法更高。我们还提出了数据漂移敏感性作为衡量语言模型的重要评估指标,并从 18 个月的实际部署中总结了经验教训。
Dec, 2023
分析语义变化的模式在长篇实际文本(如书籍或记录)中是有趣的,从文体、认知和语言的角度来看。这项研究也对应用领域,如文本分段、文档摘要和语义新颖性检测是有用的。本文通过时间序列的语义相似性以及多本文学作品的两两句子相似性矩阵比较了几种最近的句子嵌入方法。与以前使用目标任务和精心策划的数据集比较句子嵌入方法的研究不同,我们的方法提供了对方法在现实情境的评估。我们发现,大部分句子嵌入方法确实能够在给定文档中推断出高度相关的语义相似性模式,但也存在有趣的差异。
Aug, 2023