追踪暗网论坛中的话语影响力
通过主题建模分析并发现地下黑客论坛中讨论的漏洞的关键主题,从而开发出一种基于机器学习的模型,能够自动检测和分类地下黑客论坛中与漏洞相关的讨论。
May, 2024
本研究提出了一种深度、全局归一化的主题模型,该模型考虑了社交生成语料库中文档之间的结构关系,并通过加入观察到的回复链接来捕捉对话交互信息,以及使用深度体系结构排列的潜在分布式表示,以实现基于 GPU 的有效比例推理过程。我们将该模型应用于 Reddit 论坛中的新社交媒体数据集,并对多个指标进行了评估,包括困惑度和元数据预测,并定量分析了所学到的交互模式。
Sep, 2018
本研究利用基于样式的多任务学习方法来进行对用户活动的作者归属度量,进而在四个不同的暗网论坛上取得了比现存算法更好的效果。
Apr, 2021
本文研究了 80 个 d2web 论坛上发布的信息,并使用 LDA 识别了讨论主题,使用非参数 HMM 模型跨论坛模拟了主题演变,并检查了动态模式,以识别类似模式的论坛,揭示了这个丰富多样的数据中隐藏的相似性和异常事件。
Mar, 2019
本研究旨在构建一个针对网络犯罪的基准测试集 VeriDark,并对三个大规模数据集和一个用户行为数据集进行竞争性 NLP 基线评估及预测分析,以解决现有基于文学文本的作者识别方法无法适用于网络犯罪,且当前缺乏合适数据集和实验设计的问题。
Jul, 2022
提出了一种基于机器学习的方法来监测地下黑客论坛中野外漏洞利用的方式,利用监控其中的帖子并根据内容触发警报;通过使用 CrimeBB 数据集,开发了一种监督学习模型,能够过滤引用 CVE 的帖子并将其标记为概念证明、武器化或利用;利用随机森林,表明在分类任务中可以达到准确率、精确度和召回率均在 0.99 以上;此外,对武器化和利用之间的区别进行了解释,分析了与黑客社区相关的利润等方面。
Aug, 2023
通过对黑客论坛上的情感分析,我们提出了一种新的方法来预测网络事件,该方法可以在攻击事件发生前几周就进行预测,一些特定的黑客论坛可以比现有的深度学习和时间序列模型更有效地进行预测。
Apr, 2018
本研究介绍了一个名为 CoDA 的数据集,该数据集包含了一万个文档,旨在帮助进行基于文本的暗网研究。通过利用 CoDA 数据集,本研究对暗网进行了全面的语言分析,比较了暗网与表层网络之间的差异,并评估了不同方法的暗网文本分类性能。最后,本研究还将 CoDA 与现有数据集进行比较,以评估它们在各种应用场景中的适应性。
Apr, 2022
本研究通过将毒品相关网站作为测试案例,比较在深网和表面网络中合法和非法毒品销售文本的语言特征,发现它们在部分词性标注的分配和维基百科中命名实体的文本覆盖率方面存在明显差异。
May, 2019
研究机器学习自然语言处理模型的一个弱点 —— 其在针对不同领域数据时表现通常较差。本文研究了一项任务:在在线犯罪论坛中识别正在被买卖的产品,这显示出特别具有挑战性的跨域效应。在此我们提出了一种新的任务,即对四个不同论坛的数据进行注释,同时也公开了这个数据集。研究结果表明,表现在新的论坛上的纯监督模型的准确度较低,而常规的半监督学习和领域自适应技术在此数据集上的有效性又受到限制,因此需要改进这些技术。
Aug, 2017