使用 TimeLMs 的时间词义消歧

Oct, 2022

Temporal Word Meaning Disambiguation using TimeLMs

Mihir Godbole, Parth Dandavate, Aditya Kane

TL;DR本文探讨了为 EvoNLP 共享任务进行词义消歧的方法，发现使用时间感知语言模型的方法更有效，并探讨了可能的未来发展方向。

Abstract

Meaning of words constantly changes given the events in modern civilization. Large Language Models use word embeddings, which are often static and thus cannot cope with this semantic change. Thus,it is important to resolve →

word sense disambiguation time-aware language models evonlp shared task semantic change ambiguity

发现论文，激发创造

动态词向量用于演化中的语义发现

该研究通过发展一种动态统计模型学习时态感知的词向量表示，并实现了 “对齐问题” 的解决，从而可以可靠地捕捉时间上的语言演变，并在语义准确性和对齐质量方面持续优于现有的时间嵌入方法。

Mar, 2017

TimeLMs: 从 Twitter 构建历时语言模型

本文介绍了 TimeLMs，这是一组针对历时推特数据的语言模型。采用持续学习策略，增强了其处理未来和分布外推特以及应对特定命名实体和概念漂移等方面的能力，使其与标准和更加单一的基准模型相竞争。

Feb, 2022

TemporalWiki：面向训练与评估不断进化语言模型的终身基准

通过使用连续快照之间的差异作为训练和评估数据，我们介绍了一个终身学习基准测试 ——TemporalWiki，旨在评估语言模型在频繁更新的知识库，如维基百科，中获取和保留知识的能力，并发现通过继续学习方法使用 diff 数据进行训练可以通过少量的训练数据安全地更新 LM 中的事实知识。

Apr, 2022

建模语义变化生成时间线

本研究同时使用静态和时变词嵌入来衡量事件对词汇的影响，通过创建历史转折点的时间轴来了解目标词的演化，定量评估结果表明这种技术可以捕捉语义变化和事件影响。

Sep, 2019

面向时间语言模型的时间掩码技术

本文介绍了一种基于时间的上下文语言模型 TempoBERT，通过添加时间信息和进行特定的时间掩码来适应语言的动态性，并在不同的数据集上进行了实验，证明利用时间掩码可以在语义变化检测和句子时间预测任务中得到好的效果。

Oct, 2021

基于时间感知的语言模型作为时态知识库

介绍了一个用于探讨语言模型在知识更新方面的诊断数据集，提出了一种将文本与时间戳共同建模的简单技术来改善语言模型在训练时期已知事实的记忆和对未来时间段内未知事实的预测。还展示了通过时态语境训练的语言模型可以高效 “刷新”，而无需从头开始重新训练。

Jun, 2021

动态词向量

该研究提出了一种基于概率的语言模型，可以跟踪个别单词随时间的语义演变，并通过嵌入空间中的潜在轨迹表示单词和上下文。研究发现，该动态模型推断的单词嵌入轨迹更易解释，并且具有更高的预测性可能性。

Feb, 2017

历时词向量和语义漂移：一项调查

本文综述了当前关于使用预测型词嵌入模型追踪词汇语义时序变化和语义漂移检测的学术研究现状，并讨论了该领域的挑战和应用前景。

Jun, 2018

朝有效时间感知的语言表示：探索语言模型中增强的时间理解

本研究探讨了在自然语言处理领域中理解文本的时间背景的方法，并介绍了一种新型语言模型 BiTimeBERT 2.0，该模型通过预训练在一个时间新闻文章集合上，利用三种创新的预训练目标以有效地获得时间感知的语言表示，从而在与时间相关的任务中实现改进的性能。实验结果显示，BiTimeBERT 2.0 在多种依赖时间的下游自然语言处理任务和应用中显著优于 BERT 和其他现有的预训练模型。

Jun, 2024

词汇歧义检测与词义消歧综述

该研究论文探讨自然语言处理领域中关于理解和解决语言中的歧义的技术，强调了多义性和同音异义性等语言现象的复杂性，以及它们对计算模型的影响。论文详细介绍了从深度学习技术到利用词汇资源和知识图谱（如 WordNet）的各种方法，重点研究了词义消歧（Word Sense Disambiguation）。它引入了词义扩展（word sense extension）和神经肌阵挛方法等最新方法，通过预测新的词义来提高消歧准确性。论文还讨论了生物医学消歧和语言特定优化等具体应用，并讨论了认知隐喻在话语分析中的重要性。研究还确定了该领域存在的持续挑战，例如词义注释语料库的稀缺性和非正式临床文本的复杂性。最后，论文提出了未来的研究方向，包括使用大型语言模型、视觉词义消歧和多语言词义消歧系统，强调了在处理自然语言处理中的词汇复杂性方面的持续演进。该研究论文突显了这一领域在使计算机更准确地理解语言方面的进展。

Mar, 2024