基于多特征的语义增强网络在威胁情报中的命名实体识别应用
建立 CTI 数据集,使用 spaCy 框架和自我学习方法训练和测试网络安全实体模型,并探索将其与 Wikidata 的现有世界知识相链接的方法。
Aug, 2022
在本文中,我们提出了一种基于神经网络的命名实体识别方法,它能够同时考虑本地文本信息和通过对大规模语料库进行语义扩充所获得的信息,并且采用注意力机制和门控机制来编码和聚合这些信息,从而在三个从英文和中文社交媒体平台收集的基准数据集上展现出了明显的优越性。
Oct, 2020
本文介绍了一种利用结构化数据来自动标注文本的精确方法,并提供一个标注了网络安全实体的语料库。我们使用平均感知器上的最大熵模型对我们的语料库进行训练,训练时间不到 17 秒,并实现了接近完美的精确度、召回率和准确性。
Aug, 2013
本研究探讨了在低资源条件下如何使用数据增强技术来提高命名实体识别任务的性能,并比较了简单的掩码语言模型替换和基于句法树变异的数据增强方法,以保持增强后句子的语言连贯性。
Aug, 2022
本研究针对基于标记序列的命名实体识别任务,设计并比较了数据增强技术的效果。通过在生物医学和材料科学领域的两个数据集(i2b2-2010 和 MaSciP)上进行实验,我们表明简单的增强技术可以提高循环模型和基于 Transformer 模型的性能,尤其是对于小训练集的情况。
Oct, 2020
本研究针对当前实体对齐技术的局限性,通过标注第一个网络安全领域实体对齐数据集,并揭示了安全实体的独特特征,提出了第一个网络安全实体对齐模型,CEAM,具有不对称遮蔽聚合和分区关注两种机制,实验结果表明 CEAM 在网络安全领域的实体对齐数据集上显著优于同类别实体对齐方法。
Jul, 2022
本文介绍了一种利用自然语言处理技术应用于网络安全领域的生成式多任务模型(UTS),该模型能够训练并应用于多种网络威胁检测、漏洞检测和社交媒体数据处理任务,能提高网络安全数据集的性能,同时减少了人工验收数据的成本。
Feb, 2023
本文介绍一种使用神经网络方法进行实体识别的系统,主要聚焦于研究如何在建模时引入词汇特征,并通过低维向量空间嵌入和高效训练得到最佳结果,最终在公开数据集上取得了较高的 F1 分数。
Jun, 2018
使用多任务框架,将文本描述与知识图谱实体相关联,以改进知识图谱的性能,并通过检索模型选择富有信息或高度相关的文本描述来增强实体。实验结果显示,与传统的卷积神经网络相比,使用文本增强的知识图谱方法在链接预测中的 Mean Reciprocal Rank (MRR) 和 Hits@10 分别提高了 5.5% 和 3.5%。
Jul, 2023