本文提出了第一种使用上下文词表示进行无监督词汇语义变化的方法。利用 BERT 神经语言模型来获取单词用法的表示,将这些表示聚类到用法类型,并用三种提出的度量方式衡量关于时间的变化。创造了一个新的评估数据集,并表明模型表示和检测到的语义转移与人类判断之间呈正相关。 extensive 的定性分析表明,我们的方法捕捉了各种同步和历时语言现象。我们期望我们的工作将激发进一步的研究。
Apr, 2020
本文研究使用基于上下文嵌入方法进行检测历时语义变化的可能存在的输出错误。通过引入单一方法并进行深入的分析,作者发现这种方法可能会将词汇的词典含义变化与上下文语境的变化混淆,同时将词汇实体的句法和语义方面合并在一起。本文提出了一些解决这些问题的未来可能方案。
Aug, 2022
本文基于大规模比较研究了常用的大规模神经语言和蒙面语言模型(LM 和 MLM),比如 Context2vec,ELMo,BERT,XLNet,在词汇替换任务中的应用。研究表明,如果目标词语的信息被适当地注入,则可以进一步提高 SOTA LM / MLM 已经具有的竞争结果,并比较几种目标注入方法。此外,提供不同模型生成的目标及其替代词之间语义关系类型的分析,从而深入探究生成或由注释员提供的替代词的种类。
May, 2020
介绍了最近计算技术中应用到词汇语义变化的方法与工具,着重研究了语义变化的历时概念变化扩展。
Nov, 2018
引入大型语言模型(LLMs)进入词汇语义变化检测领域,提出了新的提示解决方案和全面评估,填补了研究领域中对 LLMs 应用的空白。
Dec, 2023
本文比较了多种词汇替换方法,使用包括 context2vec、ELMo、BERT、RoBERTa、XLNet 等在内的多种语言模型,并证明注入目标词信息后,能够进一步显著提高现有最佳语言模型的结果。作者还分析了不同模型或注释者给出的目标词和替代词之间的语义关系类型。
Jun, 2022
使用上下文嵌入测量语义变化的简化方法,仅依赖于最可能替代被遮盖术语的方法,不仅这种方法可直接解释,而且在存储效率、性能及变化细致调查方面均表现优越。
Sep, 2023
本文提出从变化检测到变化发现的新方向,重点在于发现全文词汇中的新单词含义变化。通过对最近发表的德语数据进行深度调整,研究人员证明了两种模型都可以成功地应用于发现正在经历含义变化的新单词。此外,还提供一个几乎全自动化的框架用于评估和发现。
Jun, 2021
本文采用预训练语言模型提出一种新的无监督词汇替换方法,通过根据单词在多个上下文中的平均上下文表示相似性来检索替代词,实验表明该方法在英语和意大利语上表现明显优于强基线,并且能够成功预测低频替代词且不受形态和句法中的词汇一致性的影响。
Sep, 2022
本章节介绍了在计算科学和语言学领域日益增长的兴趣中,对大规模历时文本数据建模和检测语义变化的主要方法,大多数方法都使用神经嵌入,虽然神经模型是易于建模历时文本的主要原因之一,但在解决问题的许多方面距离理想状态还有很远的路要走,该领域有着若干个开放和复杂的挑战。
Jan, 2021