DarkBERT: 互联网黑暗面的语言模型
本文介绍了一个特定于网络安全领域的语言模型,利用预训练的 BERT 模型,构建了一个数据集,并基于该数据集进行了 fine-tuning,在 15 个不同的前沿任务中进行了比较,结果表明该模型在特定应用场景下表现最佳,并且在避免 catastrophic forgetting 方面效果良好。
Dec, 2022
通过对 DarkNet 语料库上的分类任务探索,研究比较了不同预训练自然语言理解模型的表现,结果发现句法和词汇神经网络在适应新颖语义时优于预训练 Transformer 模型。
Jan, 2022
本文提出了一个名为 SecureBERT 的新的自然语言处理模型,该模型已使用机器学习算法在大量网络安全数据上进行了训练,能够自动处理网络安全文本(例如 CTI),并成功应用于自动化解决了许多重要的网络安全任务。
Apr, 2022
本文介绍了一种从维基百科数据中创建特定语言 BERT 模型的简单完全自动化流程,并引入 42 个新的这种模型,以往缺乏专门深度神经语言模型的语言。我们使用现有的 UDify 解析器对这些模型的优点进行评估,并发现 UDify 使用的 WikiBERT 模型在平均性能方面优于使用 mBERT 的解析器,这些特定语言模型在某些语言方面表现出显著的改进,而在其他语言方面改进有限或性能下降。我们还提供了初步结果作为了解特定语言模型最有益的条件的第一步。
Jun, 2020
通过在大量 URL 文本上进行预训练,URLBERT 模型能够在各类 URL 分类或检测任务中取得最先进的性能,并且能处理复杂任务要求,同时提供了多任务学习的探索。
Feb, 2024
本文研究了自然语言处理中的 BERT 模型及其多语言版本 (mBERT),比较并探究了语言特定的 BERT 模型与 mBERT 在架构、数据领域和任务上的差异和共性,为读者提供了一个直观的综述和交互式展示网站。
Mar, 2020
本论文聚焦于领域定向语言模型,提出了基于 BERT 的 DomBERT 模型,可通过领域相关语料和有限的课外语料学习领域语言模型,并在方面情感分析等任务上展现了良好的表现。
Apr, 2020
本文研究如何将预训练语言模型适应于不断变化的 Web 内容,通过分析 Twitter 数据的演化,探索了词汇组成和抽样方法对语言模型的增量训练的影响,证明了该方法比离线重新训练新模型更具优越性
Jun, 2021
本文通过编制全面的生物医学 NLP 基准测试集,证明了在丰富的未标记文本的领域中,从头开始针对特定领域的预训练语言模型相对于持续预训练通用领域语言模型,能够显著提高生物医学 NLP 任务的效果,并发现一些常用做法不必要。我们为社区发布了我们的最新预训练和任务特定模型,并创建了一个包含我们的 BLURB 基准测试的排行榜。
Jul, 2020