多级表示学习的两步自动网络犯罪密码词检测
社交媒体网络欺凌对人类生活有不利影响。本文提出了一种可信赖的用于社交媒体网络欺凌检测的 LSTM-Autoencoder 网络,使用合成数据。通过生成机器翻译数据,我们展示了一种解决数据可用性困难的前沿方法。我们使用提出的模型和传统模型,包括 LSTM、双向 LSTM、LSTM-Autoencoder、Word2vec、BERT 和 GPT-2 模型,在 Hindi、Bangla 和英文数据集上进行了实验性的攻击性评论识别。我们使用 f1-score、准确度、精确度和召回率等评估指标来评估模型性能。我们的模型在所有数据集上性能优于其他模型,最高准确度达到了 95%。在本文中使用的数据集上,我们的模型实现了最新的研究成果。
Aug, 2023
本研究设计了一个可以为未知单词组合嵌入的模型,与现有的自然语言处理技术相比,本方法可以更好地检测社交媒体上的滥用言论,数据集包含 Twitter 和 Wikipedia talk page。
Sep, 2018
提出并评估一种结合堆叠自编码器(SAE)进行精确特征选择和长短期记忆(LSTM)分类器以提高勒索软件分层准确性的先进勒索软件检测和分类方法。
Feb, 2024
探究用户生成文本中的仇恨言论和语言的识别与处理问题,使用字符,子字和字节对编码模型,分析其在预训练语言模型微调中的应用,以及研究 Wikipedia 攻击,毒性和 Twitter 仇恨言论数据集。
Oct, 2019
表示学习对于包括网络攻击检测在内的许多问题的成功起到了关键作用。 大多数用于网络攻击检测的表示学习方法基于自动编码器(Auto-Encoder)模型的潜在向量。 为了解决这个问题,我们提出了一种新的模型,称为双自动编码器(Twin Auto-Encoder,TAE)。 TAE 确定性地将潜在表示转换为更可区分的表示,即分离表示,并在输出中重构该分离表示。我们广泛评估了 TAE 的有效性,并发现 TAE 在广泛的基准数据集上表现优于最先进的表示学习模型和著名的机器学习算法。 此外,TAE 在某些复杂和具有挑战性的攻击上也优于最先进的模型。 接下来,我们对 TAE 的各种特性进行了深入研究,以进一步证明其优越性。
Mar, 2024
机器学习、深度学习和迁移学习等技术已成为预测网络犯罪并在此之前防范的有效工具,本篇论文对这些技术的最新研究进展进行了全面综述,讨论了其优点和局限性,并为研究人员和从业者提供必要的见解、公共数据集和资源。
Apr, 2023
本文探讨了不依赖词级对齐的跨语言自编码器方法,学习在两种语言之间对齐的词矢量表示,并提出了一种显式的相关性最大化正则化器来提高性能,并在跨语言测试分类问题上进行了实证研究,其结果与现有研究表现相当甚至取得了 10-14 个百分点的提高。
Feb, 2014
本文提出了一种检测新兴编码仇恨化术语的方法,该方法在在线反犹太人言论的背景下进行了测试,主要通过对社交媒体平台上的帖子进行抓取并计算其在整个语料库中的频率,以过滤掉语法不连贯的表达和先前遇到过的表达,最后通过对已知的反犹太术语的语义相似性进行评估,并移除与之相距过远的表达,最终返回仅含有编码化仇恨表达的新兴反犹太术语。
Jan, 2024
研究使用深度学习的 ST-ResNet 预测洛杉矶地区的实时犯罪分布,通过对原始犯罪数据进行空间和时间的正则化处理,采用细节残差卷积单元的层次结构来训练多因素犯罪预测模型,实验证明了该模型具有高度准确的预测能力。
Jul, 2017
本论文提出了一种多语言自动化系统,使用机器学习和转换器来从混合语言的数据中识别带有冒犯性的文本,并在 Tamil、Malayalam 和 Kannada 三种语言的数据集上进行了测试。结果表明,该系统在不同语言上表现出不同的最佳表现方法,得分最高的是 m-BERT(Kannada)和 XLM-R(Tamil 和 Malayalam),系统性能达到了一定的水平。
Feb, 2021