使用 TimeLMs 的时间词义消歧
该研究通过发展一种动态统计模型学习时态感知的词向量表示,并实现了 “对齐问题” 的解决,从而可以可靠地捕捉时间上的语言演变,并在语义准确性和对齐质量方面持续优于现有的时间嵌入方法。
Mar, 2017
本文介绍了 TimeLMs,这是一组针对历时推特数据的语言模型。采用持续学习策略,增强了其处理未来和分布外推特以及应对特定命名实体和概念漂移等方面的能力,使其与标准和更加单一的基准模型相竞争。
Feb, 2022
通过使用连续快照之间的差异作为训练和评估数据,我们介绍了一个终身学习基准测试 ——TemporalWiki,旨在评估语言模型在频繁更新的知识库,如维基百科,中获取和保留知识的能力,并发现通过继续学习方法使用 diff 数据进行训练可以通过少量的训练数据安全地更新 LM 中的事实知识。
Apr, 2022
本文介绍了一种基于时间的上下文语言模型 TempoBERT,通过添加时间信息和进行特定的时间掩码来适应语言的动态性,并在不同的数据集上进行了实验,证明利用时间掩码可以在语义变化检测和句子时间预测任务中得到好的效果。
Oct, 2021
介绍了一个用于探讨语言模型在知识更新方面的诊断数据集,提出了一种将文本与时间戳共同建模的简单技术来改善语言模型在训练时期已知事实的记忆和对未来时间段内未知事实的预测。还展示了通过时态语境训练的语言模型可以高效 “刷新”,而无需从头开始重新训练。
Jun, 2021
该研究提出了一种基于概率的语言模型,可以跟踪个别单词随时间的语义演变,并通过嵌入空间中的潜在轨迹表示单词和上下文。研究发现,该动态模型推断的单词嵌入轨迹更易解释,并且具有更高的预测性可能性。
Feb, 2017
本研究探讨了在自然语言处理领域中理解文本的时间背景的方法,并介绍了一种新型语言模型 BiTimeBERT 2.0,该模型通过预训练在一个时间新闻文章集合上,利用三种创新的预训练目标以有效地获得时间感知的语言表示,从而在与时间相关的任务中实现改进的性能。实验结果显示,BiTimeBERT 2.0 在多种依赖时间的下游自然语言处理任务和应用中显著优于 BERT 和其他现有的预训练模型。
Jun, 2024
该研究论文探讨自然语言处理领域中关于理解和解决语言中的歧义的技术,强调了多义性和同音异义性等语言现象的复杂性,以及它们对计算模型的影响。论文详细介绍了从深度学习技术到利用词汇资源和知识图谱(如 WordNet)的各种方法,重点研究了词义消歧(Word Sense Disambiguation)。它引入了词义扩展(word sense extension)和神经肌阵挛方法等最新方法,通过预测新的词义来提高消歧准确性。论文还讨论了生物医学消歧和语言特定优化等具体应用,并讨论了认知隐喻在话语分析中的重要性。研究还确定了该领域存在的持续挑战,例如词义注释语料库的稀缺性和非正式临床文本的复杂性。最后,论文提出了未来的研究方向,包括使用大型语言模型、视觉词义消歧和多语言词义消歧系统,强调了在处理自然语言处理中的词汇复杂性方面的持续演进。该研究论文突显了这一领域在使计算机更准确地理解语言方面的进展。
Mar, 2024