CySecBERT: 面向网络安全的领域自适应语言模型
本文提出了一个名为 SecureBERT 的新的自然语言处理模型,该模型已使用机器学习算法在大量网络安全数据上进行了训练,能够自动处理网络安全文本(例如 CTI),并成功应用于自动化解决了许多重要的网络安全任务。
Apr, 2022
本文介绍了一个在暗网数据上预训练的语言模型 DarkBERT,并通过与其他常用模型的比较表明使用特定于暗网的语言模型在各种用例中具有较好的性能,因此这种模型有望成为未来暗网研究的有价值的资源。
May, 2023
本文介绍了 SecurityLLM,它是一个旨在检测网络安全威胁的预训练语言模型,其中 SecurityBERT 作为网络威胁检测机制,而 FalconLLM 则是一种事件响应和恢复系统,实验结果表明,我们的 SecurityLLM 模型可以在 98% 的准确率下识别 14 种不同类型的攻击。
Jun, 2023
本文介绍了一种利用自然语言处理技术应用于网络安全领域的生成式多任务模型(UTS),该模型能够训练并应用于多种网络威胁检测、漏洞检测和社交媒体数据处理任务,能提高网络安全数据集的性能,同时减少了人工验收数据的成本。
Feb, 2023
介绍了 CyberMetric,这是一个包含 10,000 个问题的基准数据集,通过合作过程结合人类专家知识和大型语言模型(LLMs)来创建问题,主要目标是在网络安全领域中促进人类和不同 LLMs 之间的公平比较,结果显示 LLMs 在几乎所有网络安全方面表现优于人类。
Feb, 2024
本论文聚焦于领域定向语言模型,提出了基于 BERT 的 DomBERT 模型,可通过领域相关语料和有限的课外语料学习领域语言模型,并在方面情感分析等任务上展现了良好的表现。
Apr, 2020
针对网络安全领域中的非结构化文本,我们提出了不同的预训练方法,并通过下游任务和探测任务对其有效性进行评估。我们的所提出的策略(选择性 MLM 和联合训练 NLE 令牌分类)优于常用的替换非语言元素的方法。我们使用这种领域定制的方法训练了一个网络安全领域的语言模型 CyBERTuned,在大多数任务上胜过了其他网络安全 PLMs。
Mar, 2024
本文阐述了将领域自适应的 BERT 语言模型与半监督建模进行结合达到最优的 Aspect-Target Sentiment Classification ,并通过不同的数据集得出短语级别情感分类的最新成果,并通过交叉领域验证比较了自适应 BERT 的性能。
Aug, 2019
本文通过编制全面的生物医学 NLP 基准测试集,证明了在丰富的未标记文本的领域中,从头开始针对特定领域的预训练语言模型相对于持续预训练通用领域语言模型,能够显著提高生物医学 NLP 任务的效果,并发现一些常用做法不必要。我们为社区发布了我们的最新预训练和任务特定模型,并创建了一个包含我们的 BLURB 基准测试的排行榜。
Jul, 2020
这项研究系统地探索了领域专用语料库和各种迁移学习技术对信息检索任务的深度学习模型性能的影响,并提出了一个用于建筑、工程和建筑(AEC)领域的预训练领域专用语言模型。BERT 模型在所有 IR 任务中的表现明显优于传统方法,在 F1 得分中的最大改进分别为 5.4%和 10.1%。
Mar, 2022