动态语言模型用于不断演变的内容

Jun, 2021

动态语言模型用于不断演变的内容

Dynamic Language Models for Continuously Evolving Content

Spurthi Amba Hombaiah, Tao Chen, Mingyang Zhang, Michael Bendersky, Marc Najork

TL;DR本文研究如何将预训练语言模型适应于不断变化的 Web 内容，通过分析 Twitter 数据的演化，探索了词汇组成和抽样方法对语言模型的增量训练的影响，证明了该方法比离线重新训练新模型更具优越性

Abstract

The content on the web is in a constant state of flux. New entities, issues, and ideas continuously emerge, while the semantics of the existing conversation topics gradually shift. In recent years, pre-trained language models like →

web content pre-trained language models bert vocabulary composition methods incremental training

发现论文，激发创造

使用嵌入技术对抗冗余和模型衰减

本文介绍了 Twitter 在处理海量信息时的一种解决方案，通过采用嵌入模型，实现了同时考虑模型效率与数据分布的算法更新，从而降低因语言变化带来的协变量漂移、减少冗余，并极大地提高了团队建模的效率。

Sep, 2018

时间会改变一切：社交媒体分类中动态语言理解的实证研究

研究了社交媒体的 NLU，通过动态设置来讨论模型的适应性和使用无标记数据来提高模型的鲁棒性，使用基于自动编码和伪标记的无监督领域自适应和联合框架的实验证明了动态环境对分类精度的普遍负面影响，同时表现出最佳的鲁棒性。

Oct, 2022

Twitter 上预测不健康对话的哈希化方法

使用在大规模的 Twitter 语料库上预训练并在我们任务上进行微调的基于注意力机制的 BERT 架构，有效地进行对社交媒体对话中的个人攻击和逻辑偏离行为的预测，此模型相较于我们作为基准所使用的 LSTM 模型表现出明显的优势。此外，通过综合过采样技术，可在相对较小的新颖数据集上进行微调，并减轻过度拟合问题。通过引入基于 Transformer 的模型，使该研究为预测 Twitter 上对话事件的实用工具奠定基础，以鼓励更好地互动在最普遍的社交媒体平台之一。

Nov, 2023

终身预训练：持续适应新出现的语料库的语言模型

本研究通过使用不同的持续学习算法对预先训练的语言模型进行不断的增量预训练，并通过评估模型对新数据的适应能力以及对早期数据所学知识的保留能力来研究生命周期语言模型预训练挑战，结果表明采用基于蒸馏的方法可以最有效地保留早期领域的下游任务性能。这些算法还可以提高知识转移能力，使模型在最新数据上实现更好的下游性能，并在由于时间而存在训练和评估之间的分布差异时，提高时态的泛化能力。

Oct, 2021

社交媒体中语言模型的时间泛化的系统分析

该研究论文主要研究机器学习中的时序转变对社交媒体的影响，通过提出一种统一的评估方案，发现语言模型在不同时间设置下会出现性能下降，尤其在命名实体识别、仇恨言论检测等任务中。而在主题分类和情感分类等任务中，性能下降不明显，同时发现对测试期进行连续预训练并不能提高语言模型的时序适应能力。

May, 2024

利用词汇语义变化提高预训练语言模型的时间泛化能力

本论文提出了一种基于词汇层面 masking 的后训练策略，以此来解决大规模神经语言模型在时间通用性方面存在的问题，实验证明该方法在两个预训练语言模型、两种不同分类任务和四个基准数据集上效果优于现有的连续训练策略。

Oct, 2022

HistBERT：用于历时词汇语义分析的预训练语言模型

研究历史语料库数据对语言模型 BERT 训练的影响，从而提出一种预先训练的基于 HistBERT 的语言模型，并比较它与原始 BERT 在单词相似度和语义转化分析方面的表现，该工作强调，上下文语言嵌入在历史语言分析中的效果取决于输入文本的时态特征，并应谨慎应用此方法来研究历史语义变化。

Feb, 2022

RobBERT-2022: 更新荷兰语言模型以适应语言使用的演变

该研究对 RobBERT 进行了更新，更新了 tokenizer 和数据集，使用新模型取代模型更新的效果显著，证明持续更新语言模型可以提高性能。

Nov, 2022

IndoBERTweet：印度尼西亚推特预训练语言模型，具有效领域特定词汇初始化

本研究介绍了 IndoBERTweet，这是第一个大规模预训练的印度尼西亚语 Twitter 模型，它通过扩展单语训练的印度尼西亚 BERT 模型来训练，并使用了特定领域的词汇表。我们特别关注词汇不匹配下的有效模型适应性，并基准测试了不同的 BERT 嵌入层初始化方式，发现用平均 BERT 子词嵌入初始化可以使预训练速度提高五倍，并且在七个基于 Twitter 的数据集上使用外部评估比提出的词汇自适应方法更有效。

Sep, 2021

缓解时间漂移：保持 NER 模型清晰的简单方法

该研究提出了一种测量推文潜在趋势的直观方法，用于选择最具信息价值的实例以用于训练命名实体识别的神经模型的更新，实验表明，该方法比其他方法使用更少的训练数据更能提高准确性，是一个实用的解决方案。

Apr, 2021