从地下黑客论坛推断关于漏洞利用的讨论主题
提出了一种基于机器学习的方法来监测地下黑客论坛中野外漏洞利用的方式,利用监控其中的帖子并根据内容触发警报;通过使用 CrimeBB 数据集,开发了一种监督学习模型,能够过滤引用 CVE 的帖子并将其标记为概念证明、武器化或利用;利用随机森林,表明在分类任务中可以达到准确率、精确度和召回率均在 0.99 以上;此外,对武器化和利用之间的区别进行了解释,分析了与黑客社区相关的利润等方面。
Aug, 2023
本文介绍了我们在 2021 AMoC 黑客马拉松中的任务,我们的主要贡献是通过语义和时间特征的联合可视化,通过新颖性、短暂性和共鸣等方面对暗网犯罪数据进行分析,了解暗网社区的整体话语影响。
Feb, 2022
通过对黑客论坛上的情感分析,我们提出了一种新的方法来预测网络事件,该方法可以在攻击事件发生前几周就进行预测,一些特定的黑客论坛可以比现有的深度学习和时间序列模型更有效地进行预测。
Apr, 2018
该研究提出了一种方法,通过对句子和文档的主题进行深入理解,不仅分析数据中的词频,而且可以检测包括非常见词或新词在内的潜在主题,还使用了基于语义空间的异类词和相似性度量等新的评价指标,并通过与人工识别相似性度量的相关系数,在文本挖掘方面展现出优秀的性能结果。
Mar, 2023
通过 Next Paragraph Prediction with Instructional Prompting 方法,结合黑客论坛的数据,对社交网络相互作用进行预测,以更好地预测未来网络威胁。
Mar, 2023
该研究引入了 QuaLLM,一种基于 LLM 的新型框架,用于分析和提取在线论坛上的文本数据的定量洞见。该框架通过一种新颖的提示方法和评估策略进行构建,并应用于分析了 Reddit 拼车工作者社区的超过一百万条评论,揭示了工作者对 AI 和算法平台决策的重大关注,以回应有关工作者洞察力的监管呼吁。总之,我们的工作为 AI 辅助的定量数据分析从在线论坛中浮出的关注点树立了新的先例。
May, 2024
本研究提出了一种深度、全局归一化的主题模型,该模型考虑了社交生成语料库中文档之间的结构关系,并通过加入观察到的回复链接来捕捉对话交互信息,以及使用深度体系结构排列的潜在分布式表示,以实现基于 GPU 的有效比例推理过程。我们将该模型应用于 Reddit 论坛中的新社交媒体数据集,并对多个指标进行了评估,包括困惑度和元数据预测,并定量分析了所学到的交互模式。
Sep, 2018
研究机器学习自然语言处理模型的一个弱点 —— 其在针对不同领域数据时表现通常较差。本文研究了一项任务:在在线犯罪论坛中识别正在被买卖的产品,这显示出特别具有挑战性的跨域效应。在此我们提出了一种新的任务,即对四个不同论坛的数据进行注释,同时也公开了这个数据集。研究结果表明,表现在新的论坛上的纯监督模型的准确度较低,而常规的半监督学习和领域自适应技术在此数据集上的有效性又受到限制,因此需要改进这些技术。
Aug, 2017
最近的研究表明,大型语言模型容易受到侵犯隐私的攻击,推断出训练数据的某些方面。然而,目前尚不清楚是否简单的生成模型(如主题模型)具有类似的弱点。本文提出了一种针对主题模型的攻击方法,可以自信地识别潜在狄利克雷分布中的训练数据成员。我们的结果表明,与生成神经模型相关的隐私风险并不仅限于大型模型。此外,为了减轻这些弱点,我们探讨了差分隐私的主题模型。我们提出了一个框架,将差分隐私词汇选择作为预处理步骤纳入私有主题模型,并展示它在保护隐私方面的改进,对实际效用影响较小。
Mar, 2024