从地下黑客论坛推断关于漏洞利用的讨论主题

May, 2024

从地下黑客论坛推断关于漏洞利用的讨论主题

Inferring Discussion Topics about Exploitation of Vulnerabilities from Underground Hacking Forums

Felipe Moreno-Vera

TL;DR通过主题建模分析并发现地下黑客论坛中讨论的漏洞的关键主题，从而开发出一种基于机器学习的模型，能够自动检测和分类地下黑客论坛中与漏洞相关的讨论。

Abstract

The increasing sophistication of cyber threats necessitates proactive measures to identify vulnerabilities and potential exploits. Underground hacking forums serve as breeding grounds for the exchange of hacking

cyber threats underground hacking forums topic modeling vulnerabilities machine learning

发现论文，激发创造

地下信息的奶油撇取：从在线论坛识别相关信息点

提出了一种基于机器学习的方法来监测地下黑客论坛中野外漏洞利用的方式，利用监控其中的帖子并根据内容触发警报；通过使用 CrimeBB 数据集，开发了一种监督学习模型，能够过滤引用 CVE 的帖子并将其标记为概念证明、武器化或利用；利用随机森林，表明在分类任务中可以达到准确率、精确度和召回率均在 0.99 以上；此外，对武器化和利用之间的区别进行了解释，分析了与黑客社区相关的利润等方面。

Aug, 2023

追踪暗网论坛中的话语影响力

本文介绍了我们在 2021 AMoC 黑客马拉松中的任务，我们的主要贡献是通过语义和时间特征的联合可视化，通过新颖性、短暂性和共鸣等方面对暗网犯罪数据进行分析，了解暗网社区的整体话语影响。

Feb, 2022

利用黑客情感预测网络安全事件

通过对黑客论坛上的情感分析，我们提出了一种新的方法来预测网络事件，该方法可以在攻击事件发生前几周就进行预测，一些特定的黑客论坛可以比现有的深度学习和时间序列模型更有效地进行预测。

Apr, 2018

稻草堆中的话题：超越一致性的话题提取和评估

该研究提出了一种方法，通过对句子和文档的主题进行深入理解，不仅分析数据中的词频，而且可以检测包括非常见词或新词在内的潜在主题，还使用了基于语义空间的异类词和相似性度量等新的评价指标，并通过与人工识别相似性度量的相关系数，在文本挖掘方面展现出优秀的性能结果。

Mar, 2023

基于提示的学习在网络安全论坛中的主题结构预测

通过 Next Paragraph Prediction with Instructional Prompting 方法，结合黑客论坛的数据，对社交网络相互作用进行预测，以更好地预测未来网络威胁。

Mar, 2023

QuaLLM: 一种基于 LLM 的在线论坛定量洞见提取框架

该研究引入了 QuaLLM，一种基于 LLM 的新型框架，用于分析和提取在线论坛上的文本数据的定量洞见。该框架通过一种新颖的提示方法和评估策略进行构建，并应用于分析了 Reddit 拼车工作者社区的超过一百万条评论，揭示了工作者对 AI 和算法平台决策的重大关注，以回应有关工作者洞察力的监管呼吁。总之，我们的工作为 AI 辅助的定量数据分析从在线论坛中浮出的关注点树立了新的先例。

May, 2024

使用开源数据预测软件漏洞的利用

本研究旨在研究使用机器学习模型来预测软件漏洞是否会被攻击，着重探讨了该方法的局限性和如何选择更合适的测试数据以准确预测漏洞被攻击的可能性。

Jul, 2017

使用耦合分布式主题建模在线话语

本研究提出了一种深度、全局归一化的主题模型，该模型考虑了社交生成语料库中文档之间的结构关系，并通过加入观察到的回复链接来捕捉对话交互信息，以及使用深度体系结构排列的潜在分布式表示，以实现基于 GPU 的有效比例推理过程。我们将该模型应用于 Reddit 论坛中的新社交媒体数据集，并对多个指标进行了评估，包括困惑度和元数据预测，并定量分析了所学到的交互模式。

Sep, 2018

在线犯罪市场商品识别：一份精细领域适应数据集

研究机器学习自然语言处理模型的一个弱点 —— 其在针对不同领域数据时表现通常较差。本文研究了一项任务：在在线犯罪论坛中识别正在被买卖的产品，这显示出特别具有挑战性的跨域效应。在此我们提出了一种新的任务，即对四个不同论坛的数据进行注释，同时也公开了这个数据集。研究结果表明，表现在新的论坛上的纯监督模型的准确度较低，而常规的半监督学习和领域自适应技术在此数据集上的有效性又受到限制，因此需要改进这些技术。

Aug, 2017

主题建模中的成员推断攻击和隐私

最近的研究表明，大型语言模型容易受到侵犯隐私的攻击，推断出训练数据的某些方面。然而，目前尚不清楚是否简单的生成模型（如主题模型）具有类似的弱点。本文提出了一种针对主题模型的攻击方法，可以自信地识别潜在狄利克雷分布中的训练数据成员。我们的结果表明，与生成神经模型相关的隐私风险并不仅限于大型模型。此外，为了减轻这些弱点，我们探讨了差分隐私的主题模型。我们提出了一个框架，将差分隐私词汇选择作为预处理步骤纳入私有主题模型，并展示它在保护隐私方面的改进，对实际效用影响较小。

Mar, 2024