Twitter 自动账户的词汇分析
本文提出了一个基于超过一千个公共数据和元数据特征的框架,用于检测 Twitter 上的社交媒体自主实体(即社交媒体机器人)。经测试,此框架能够与公开的 Twitter 机器人数据集高度契合,可以检测不同类型的机器人,如垃圾邮件发送者、自我推广者和使用连接应用程序发布内容的账户等,并且估计在活跃的 Twitter 账户中有 9% 至 15% 的机器人,机器人相互之间的交互关系有助于研究用于相互之间通信的转发和提到策略。
Mar, 2017
该论文提出了一种基于深度神经网络的机器人检测方法,通过使用元数据并将其作为辅助输入,CNN 处理推文文本。同时,作者们提出了一种基于合成少数过抽样的技术,从少量已标记数据(大约 3000 个 sophisticated Twitter bots 的样例)生成适合深度 CNN 训练的大型标记数据集。作者还在账户级别的机器人检测中应用了相同的架构,并在保证小型和可解释特征,以及最小训练数据的情况下,实现了几乎完美的分类准确度。从仅一个推文中,我们的体系结构就可以实现高分类精度(AUC > 96%)将机器人与人类分开。
Feb, 2018
本论文从 Twitter 账号出发,提出了使用卷积神经网络的新型算法,将账号执行的操作序列转化为图片,并进行图像分类,从而进行 bot 检测。结果证实了该方法的有效性,因为它与现有技术处在同一水平,并在某些情况下更好。
Apr, 2023
本文通过采用双向 LSTM 循环神经网络来区分类别 Twitter 上的人类账户和垃圾邮件机器人账户,实现对无先验知识的 Twitter 账户进行检测,以及不需要任何手工特征设计,最终得到良好的实验结果。
Feb, 2020
通过机器学习模型,利用推文文本中提取的用户资料来检测社交机器人(social bots)的研究,其主要贡献为提出一种利用个人信息相似性来区分社交机器人和人类用户的新模型,并创建了一个包含 6900 个 Twitter 账户资料的公共数据集。
Mar, 2022
利用启发式方法,本研究发现 1,140 个通过 Twitter botnet 使用 ChatGPT 生成人类风格内容的虚假个人的密集集群,并通过人工注释验证。ChatGPT 生成的内容宣传可疑网站并传播有害评论。尽管 AI botnet 中的账户可以通过其协调模式检测到,但目前最先进的大语言模型内容分类器无法区分它们和真实用户账户。这些发现强调了 AI 助推社交机器人带来的威胁。
Jul, 2023
本研究提出一种基于最少账户元数据的框架,实现了对 Twitter 公共推文全量实时分析的高效和可靠的社交机器人分类,通过对训练和验证的大量数据集进行严格的验证系统,找到了挑选子集进行训练的方式比全量训练更好的模型精度和泛化性。
Nov, 2019
采集了一份大规模的多语言社交话语 Twitter 数据集,并通过 Twitter API 和 Botometer 提供的已带标签的 Twitter 账号数据集与另外两个热门话题(即 2022 年能源危机和阴谋论讨论)来检测 Twitter 上的机器人账号,利用基于 XGBoost 模型的新型机器学习模型和大量标记数据集相结合,可以在不同的时间段内,独立于 Twitter API 对数据集进行标记,相比于 Botometer,在两个实际应用数据集上实现了平均 11% 更高的 ROC-AUC 得分。
May, 2023
早期检测社交垃圾机器人对于防范传播虚假信息和操控公众意见至关重要。本研究首次使用用户描述字段和图像,采用预训练的视觉模型以及 TwHIN-BERT 来获取文本和图像的表征,并提出了三种不同的融合方法进行多模态融合,并在 Cresci '17 数据集上进行了广泛实验,证明了我们方法在准确率上具有显著优势,达到了 99.98%。
Aug, 2023