DarkBERT: 互联网黑暗面的语言模型

ACLMay, 2023

DarkBERT: A Language Model for the Dark Side of the Internet

Youngjin Jin, Eugene Jang, Jian Cui, Jin-Woo Chung, Yongjae Lee...

TL;DR本文介绍了一个在暗网数据上预训练的语言模型 DarkBERT，并通过与其他常用模型的比较表明使用特定于暗网的语言模型在各种用例中具有较好的性能，因此这种模型有望成为未来暗网研究的有价值的资源。

Abstract

Recent research has suggested that there are clear differences in the language used in the dark web compared to that of the Surface Web. As studies on the dark web commonly require →

dark web language model textual analysis pretrained model lexical diversity

发现论文，激发创造

CySecBERT: 面向网络安全的领域自适应语言模型

本文介绍了一个特定于网络安全领域的语言模型，利用预训练的 BERT 模型，构建了一个数据集，并基于该数据集进行了 fine-tuning，在 15 个不同的前沿任务中进行了比较，结果表明该模型在特定应用场景下表现最佳，并且在避免 catastrophic forgetting 方面效果良好。

Dec, 2022

语言的黑暗面：预训练变形器在 DarkNet 中的应用

通过对 DarkNet 语料库上的分类任务探索，研究比较了不同预训练自然语言理解模型的表现，结果发现句法和词汇神经网络在适应新颖语义时优于预训练 Transformer 模型。

Jan, 2022

SecureBERT：面向网络安全的领域特定语言模型

本文提出了一个名为 SecureBERT 的新的自然语言处理模型，该模型已使用机器学习算法在大量网络安全数据上进行了训练，能够自动处理网络安全文本（例如 CTI），并成功应用于自动化解决了许多重要的网络安全任务。

Apr, 2022

WikiBERT 模型：多语言深度迁移学习

本文介绍了一种从维基百科数据中创建特定语言 BERT 模型的简单完全自动化流程，并引入 42 个新的这种模型，以往缺乏专门深度神经语言模型的语言。我们使用现有的 UDify 解析器对这些模型的优点进行评估，并发现 UDify 使用的 WikiBERT 模型在平均性能方面优于使用 mBERT 的解析器，这些特定语言模型在某些语言方面表现出显著的改进，而在其他语言方面改进有限或性能下降。我们还提供了初步结果作为了解特定语言模型最有益的条件的第一步。

Jun, 2020

URLBERT: URL 分类的对比和对抗预训练模型

通过在大量 URL 文本上进行预训练，URLBERT 模型能够在各类 URL 分类或检测任务中取得最先进的性能，并且能处理复杂任务要求，同时提供了多任务学习的探索。

Feb, 2024

什么 [MASK]？理解特定语言的 BERT 模型

本文研究了自然语言处理中的 BERT 模型及其多语言版本 (mBERT)，比较并探究了语言特定的 BERT 模型与 mBERT 在架构、数据领域和任务上的差异和共性，为读者提供了一个直观的综述和交互式展示网站。

Mar, 2020

DomBERT: 面向领域的语言模型用于基于方面的情感分析

本论文聚焦于领域定向语言模型，提出了基于 BERT 的 DomBERT 模型，可通过领域相关语料和有限的课外语料学习领域语言模型，并在方面情感分析等任务上展现了良好的表现。

Apr, 2020

动态语言模型用于不断演变的内容

本文研究如何将预训练语言模型适应于不断变化的 Web 内容，通过分析 Twitter 数据的演化，探索了词汇组成和抽样方法对语言模型的增量训练的影响，证明了该方法比离线重新训练新模型更具优越性

Jun, 2021

针对生物医学自然语言处理的领域特定语言模型预训练

本文通过编制全面的生物医学 NLP 基准测试集，证明了在丰富的未标记文本的领域中，从头开始针对特定领域的预训练语言模型相对于持续预训练通用领域语言模型，能够显著提高生物医学 NLP 任务的效果，并发现一些常用做法不必要。我们为社区发布了我们的最新预训练和任务特定模型，并创建了一个包含我们的 BLURB 基准测试的排行榜。

Jul, 2020

使用大型语言模型进行网络欺凌检测

社交媒体、网络欺凌、机器学习、大型语言模型和 RoBERTa 在网络欺凌检测方面的应用和效果的研究。

Feb, 2024