谎言的集袋：BERT 在持续预训练中的鲁棒性

Jun, 2024

谎言的集袋：BERT 在持续预训练中的鲁棒性

Bag of Lies: Robustness in Continuous Pre-training BERT

Ine Gevers, Walter Daelemans

TL;DR研究利用 COVID-19 作为案例，探讨 BERT 的持续预训练阶段，尤其是实体知识的获取。结果表明，持续预训练使得 BERT 对 COVID-19 具有一定的实体知识。在使用事实核查基准 Check-COVID 测试连续预训练的鲁棒性时，我们发现恶意训练和词序乱序等故意篡改数据的方法并没有降低模型的下游性能，甚至有时还能改善，这表明 BERT 的持续预训练对于恶意信息具有一定的鲁棒性。此外，我们还发布了一个新数据集，包括 LitCovid 仓库中的原始文本和 AI 生成的错误对应文本。

Abstract

This study aims to acquire more insights into the continuous pre-training phase of bert regarding entity knowledge, using the

continuous pre-training bert entity knowledge covid-19 robustness

发现论文，激发创造

Continual BERT: COVID-19 文献自适应抽取式摘要的持续学习

为了帮助科学界更好地理解与 COVID-19 相关的文献，我们提出了一种新颖的 BERT 架构，该架构能够提供长度较长的论文的简洁而原创的摘要，并通过在线学习最小化灾难性遗忘以适应社群需求。基准测试和手动检查显示，该模型可以提供新的科学文献的良好概要。

Jul, 2020

评估基于 BERT 预训练语言模型在检测谣言方面的表现

本研究提出了使用基于 BERT 的预训练语言模型将文本数据编码为向量，并利用神经网络模型进行分类以检测谣言，进一步比较不同语言模型的表现与可训练参数。然后在不同的短文本和长文本数据集上进行了测试，结果表明该技术的表现优于现有技术，并测试其组合数据集的表现，结果表明大数据的训练和测试对提高技术的性能具有相当大的作用。

Mar, 2022

COVID-Twitter-BERT：一个用于分析 Twitter 上 COVID-19 内容的自然语言处理模型

该论文介绍了基于 transformer 的 COVID-Twitter-BERT 模型，通过对大量 Twitter 上有关 COVID-19 的消息进行预训练，该模型在五个不同的分类数据集上相较于 BERT-Large 基础模型提高了 10-30％，特别是在 COVID-19 内容（尤其是来自 Twitter 的社交媒体帖子）的分类中表现更突出，从而实现了优化。该模型可以用于文本分类、问答和聊天机器人等自然语言处理任务。

May, 2020

CBEAF-Adapting: 增强型持续预训练用于构建中文生物医学语言模型

本论文介绍了一种连续预训练方法，称为 CBEAF-Adapting，它的主要思想是在每个自注意力层和前馈网络中引入少量注意头和隐藏单元，有效地解决了领域适应中序列任务训练造成的遗忘问题，以中国生物医学领域为例进行了实验，结果表明我们的方法能够显著提高性能，并且减轻了遗忘问题。

Nov, 2022

动态语言模型用于不断演变的内容

本文研究如何将预训练语言模型适应于不断变化的 Web 内容，通过分析 Twitter 数据的演化，探索了词汇组成和抽样方法对语言模型的增量训练的影响，证明了该方法比离线重新训练新模型更具优越性

Jun, 2021

用于定位医学 BERT 和增强生物医学 BERT 的预训练技术

本研究探讨了如何通过对特定语料库的过采样和使用更大的语料库进行预训练，在医学和其他领域中建立高性能的 BERT 模型以提高自然语言处理中信息提取的性能。

May, 2020

通过减小稳定性差距来实现高效的持续性预训练

持续预训练是适应大型语言模型（LLM）到新领域的主要方法之一，研究探讨了在这个过程中 LLM 的行为和性能，提出了三种有效策略来增强 LLM 在固定计算资源下的性能，经实验证实这些策略在医学任务性能和通用任务性能方面均取得了令人满意的成果。

Jun, 2024

使用 BERT 的 COVID-19 谣言检测二阶分类器：对印尼推文的研究

本研究通过构建印度尼西亚语 COVID-19 Tweets 语料库，并使用 IndoBERT 预训练语言模型建立分类器模型，对 tweets 中的信息进行关联度和虚假性评估，结果表明，我们的模型精度达到了 87.02％。

Jun, 2022

InfoBERT: 从信息理论的角度提高语言模型的鲁棒性

从信息论的角度出发，我们提出了 InfoBERT 框架来增强预训练语言模型的鲁棒性，包含两种基于相互信息的正则化器：信息瓶颈正则化器和鲁棒特征正则化器。实验证明，该方法在 NLI 和 QA 任务上取得了最先进的鲁棒性的结果。

Oct, 2020

COVID-19 虚假新闻检测和事实核查的两阶段 Transformer 模型

为了在新冠疫情期间快速检测和减轻假新闻的传播，我们开发了一种基于机器学习自然语言处理模型的两阶段自动化检测流程来检测 COVID-19 假新闻，其中第一模型利用了基于事实检查的算法，通过检索特定 COVID-19 索赔的相关事实，第二模型通过计算索赔和手动策划的 COVID-19 数据集中检索到的真实事实之间的文本蕴含程度来验证索赔的真实程度。

Nov, 2020