未来不同：大型预训练语言模型在预测任务中失效

Nov, 2022

未来不同：大型预训练语言模型在预测任务中失效

The future is different: Large pre-trained language models fail in prediction tasks

Kostadin Cvejoski, Ramsés J. Sánchez, César Ojeda

TL;DR本文介绍了四个 Reddit 数据集，探讨了预训练语言模型在数据分布面临渐变时的性能问题，并提出了一种基于神经变分动态主题模型和注意力机制的简单方法来预测未来文章的流行度，其性能表现比预训练语言模型的性能下降少，提供实际事件的可解释性表示，如 GameStop 的空头攻击。

Abstract

Large pre-trained language models (LPLM) have shown spectacular success when fine-tuned on downstream supervised tasks. Yet, it is known that their performance can drastically drop when there is a distribution shift

发现论文，激发创造

微调预训练语言模型：权重初始化，数据排序和早期停止

该研究通过对GLUE基准测试中的四个数据集进行BERT的微调，发现同样参数下，不同的随机种子会导致非常不同的结果表现，并且在权重初始化和训练数据排序的两个方面探究其对结果的影响。此外，该研究对微调方法的实现提出了最佳实践，并公开其所有实验数据以供更深入的分析。

Feb, 2020

领域匹配的密集检索预训练任务

通过在65百万个合成问题和2亿个来自Reddit对话的帖子对大型bi-encoder模型进行适当的预训练，可以在信息检索和对话检索基准测试中实现比监督基准线显着更好的表现。

Jul, 2021

TimeLMs: 从 Twitter 构建历时语言模型

本文介绍了 TimeLMs，这是一组针对历时推特数据的语言模型。采用持续学习策略，增强了其处理未来和分布外推特以及应对特定命名实体和概念漂移等方面的能力，使其与标准和更加单一的基准模型相竞争。

Feb, 2022

评估神经语言模型中的分布扭曲

我们发现，LSTM和Transformer语言模型系统地低估了来自目标语言的序列的概率，并且对于不太可能出现的序列更为严重，尽管使用更多的训练数据减轻了这种倾向，但这种低估行为还是存在，并且在目标分布熵较低时加剧了这种情况，并且找到了导致这种概率差距的原因在于语言模型往往会高估不规范序列的概率。

Mar, 2022

时间会改变一切：社交媒体分类中动态语言理解的实证研究

研究了社交媒体的NLU，通过动态设置来讨论模型的适应性和使用无标记数据来提高模型的鲁棒性，使用基于自动编码和伪标记的无监督领域自适应和联合框架的实验证明了动态环境对分类精度的普遍负面影响，同时表现出最佳的鲁棒性。

Oct, 2022

模型痴呆：生成数据使模型遗忘

介绍了大型语言模型的发展并探讨了模型生成内容在训练中产生的影响，它导致原始内容分布的尾部消失并称之为模型失忆现象(model dementia)，此现象在各种生成模型中普遍存在，为了利用从网络中爬取的大规模数据所获得的收益，我们必须认真对待它。

May, 2023

研究使用ChatGPT生成文本进行预训练对后续任务的影响

通过一系列实验，我们的研究证明了在预训练阶段中利用人工生成的文本对于模型在下游任务的表现和性别偏见没有显著影响。

Sep, 2023

LLM过程：基于自然语言的数值预测分布

构建能够处理数字数据并根据自然语言文本进行概率预测的回归模型，以整合先前的知识和信念，提高预测性能并给出定量结构。

May, 2024

社交媒体中语言模型的时间泛化的系统分析

该研究论文主要研究机器学习中的时序转变对社交媒体的影响，通过提出一种统一的评估方案，发现语言模型在不同时间设置下会出现性能下降，尤其在命名实体识别、仇恨言论检测等任务中。而在主题分类和情感分类等任务中，性能下降不明显，同时发现对测试期进行连续预训练并不能提高语言模型的时序适应能力。

May, 2024

使用大型语言模型预测在线言辞的限制

通过分析社交媒体上的在线言论的可预测性以及是否受到用户自己帖子以外的信息的提升，本研究利用大型语言模型实证测试了这一假设。结果显示，我们的研究对象包括超过五千个X（以前的Twitter）用户及其同行所发布的6,250,000个帖子，通过三个大小从10亿到700亿参数的大型语言模型，我们发现从用户的同行帖子预测该用户的帖子的性能较差。此外，与同行相比，用户自己的帖子对于预测的价值始终较高。总体而言，社交媒体帖子的可预测性较低，类似于在没有上下文情境的情况下预测财经新闻。我们通过详细分析预测不确定性的原因以及我们的结果的稳健性来扩展我们的研究。特别是我们观察到，两个重要因素导致了预测不确定性，即主题标签和@提及。此外，我们的结果得到了重复验证，即使我们不使用额外的上下文而是对附加上下文进行微调。

Jul, 2024