暗网上合法和非法活动的语言
本文介绍了如何利用深度学习技术,提出了一种可用于控制黑暗网络非法活动的搜索引擎,该系统能够检测和提取与黑暗网络中违法活动有关的图像。作者创建了一个名为 darkoob 的全面数据集,并在测试数据集上实现了 94% 的准确性,这项技术有望缓解非法活动带来的各种社会、经济和政治挑战,是联网和社区安全领域的重要技术进步。
May, 2023
本文分析了可通过 Tor 访问到的一组网站即 “暗网” 中的拓扑结构和内容。作者使用监督式机器学习的方法对内容进行分类,研究发现显示的暗网内容中大约有一半属于合法活动,而不合法内容主要分布在欺诈网站、销售假冒产品和毒品市场上。
Nov, 2018
本研究介绍了一个名为 CoDA 的数据集,该数据集包含了一万个文档,旨在帮助进行基于文本的暗网研究。通过利用 CoDA 数据集,本研究对暗网进行了全面的语言分析,比较了暗网与表层网络之间的差异,并评估了不同方法的暗网文本分类性能。最后,本研究还将 CoDA 与现有数据集进行比较,以评估它们在各种应用场景中的适应性。
Apr, 2022
本文研究了 80 个 d2web 论坛上发布的信息,并使用 LDA 识别了讨论主题,使用非参数 HMM 模型跨论坛模拟了主题演变,并检查了动态模式,以识别类似模式的论坛,揭示了这个丰富多样的数据中隐藏的相似性和异常事件。
Mar, 2019
本研究旨在构建一个针对网络犯罪的基准测试集 VeriDark,并对三个大规模数据集和一个用户行为数据集进行竞争性 NLP 基线评估及预测分析,以解决现有基于文学文本的作者识别方法无法适用于网络犯罪,且当前缺乏合适数据集和实验设计的问题。
Jul, 2022
本文总结了 NLP 与法律领域的现状并关注最近的技术和实质性发展。通过构建并分析过去十年发表的超过六百篇与 NLP & 法律相关的论文,我们发现了一些主要趋势,并且我们相信这些趋势对于该领域的未来发展具有积极意义,但是仍有许多问题需要解决。
Feb, 2023
该论文探讨了针对网络安全法律文件的词性标注方法,使用 SpaCy 和 ClausIE 等工具对欧盟法律文书进行分析并得出结论,提出了一种自动化方法,并得出了第一个针对 NIS 2 指令的结构化解释。
Jun, 2023
提供了一种基于 NLP 的方法 VendorLink,通过模式识别可以在 Darknet 找到并验证多个供应商帐户,帮助执法机构更好地识别潜在的非法市场和供应商。
May, 2023
本文介绍了我们在 2021 AMoC 黑客马拉松中的任务,我们的主要贡献是通过语义和时间特征的联合可视化,通过新颖性、短暂性和共鸣等方面对暗网犯罪数据进行分析,了解暗网社区的整体话语影响。
Feb, 2022