可扩展且具有普适性的社交机器人检测通过数据选择
本文旨在提出一种一般化 Twitter 机器人检测评估方法,通过测试它们在未看到的机器人类别上进行分类,评估机器人分类器的方法论,该方法对机器人的大小和特性进行了验证,并培训了一个分类器,精度达到 97%以上。
Sep, 2018
本文提出了一个基于超过一千个公共数据和元数据特征的框架,用于检测 Twitter 上的社交媒体自主实体(即社交媒体机器人)。经测试,此框架能够与公开的 Twitter 机器人数据集高度契合,可以检测不同类型的机器人,如垃圾邮件发送者、自我推广者和使用连接应用程序发布内容的账户等,并且估计在活跃的 Twitter 账户中有 9% 至 15% 的机器人,机器人相互之间的交互关系有助于研究用于相互之间通信的转发和提到策略。
Mar, 2017
该论文提出了一种基于深度神经网络的机器人检测方法,通过使用元数据并将其作为辅助输入,CNN 处理推文文本。同时,作者们提出了一种基于合成少数过抽样的技术,从少量已标记数据(大约 3000 个 sophisticated Twitter bots 的样例)生成适合深度 CNN 训练的大型标记数据集。作者还在账户级别的机器人检测中应用了相同的架构,并在保证小型和可解释特征,以及最小训练数据的情况下,实现了几乎完美的分类准确度。从仅一个推文中,我们的体系结构就可以实现高分类精度(AUC > 96%)将机器人与人类分开。
Feb, 2018
通过机器学习模型,利用推文文本中提取的用户资料来检测社交机器人(social bots)的研究,其主要贡献为提出一种利用个人信息相似性来区分社交机器人和人类用户的新模型,并创建了一个包含 6900 个 Twitter 账户资料的公共数据集。
Mar, 2022
研究为了解决检测新型社交机器人的验证问题,提出一种基于专用分类器的超级学习方法,该方法在新数据集中将 F1 分数提高了 56%,且新机器人行为可使用更少标记示例进行学习。
Jun, 2020
本论文从 Twitter 账号出发,提出了使用卷积神经网络的新型算法,将账号执行的操作序列转化为图片,并进行图像分类,从而进行 bot 检测。结果证实了该方法的有效性,因为它与现有技术处在同一水平,并在某些情况下更好。
Apr, 2023
采集了一份大规模的多语言社交话语 Twitter 数据集,并通过 Twitter API 和 Botometer 提供的已带标签的 Twitter 账号数据集与另外两个热门话题(即 2022 年能源危机和阴谋论讨论)来检测 Twitter 上的机器人账号,利用基于 XGBoost 模型的新型机器学习模型和大量标记数据集相结合,可以在不同的时间段内,独立于 Twitter API 对数据集进行标记,相比于 Botometer,在两个实际应用数据集上实现了平均 11% 更高的 ROC-AUC 得分。
May, 2023
早期检测社交垃圾机器人对于防范传播虚假信息和操控公众意见至关重要。本研究首次使用用户描述字段和图像,采用预训练的视觉模型以及 TwHIN-BERT 来获取文本和图像的表征,并提出了三种不同的融合方法进行多模态融合,并在 Cresci '17 数据集上进行了广泛实验,证明了我们方法在准确率上具有显著优势,达到了 99.98%。
Aug, 2023
社交媒体机器人检测一直是机器学习机器人检测器和对抗机器人策略之间的一场军备竞赛。本研究将这场竞赛提升到了一个新的水平,通过研究最先进的大型语言模型(LLMs)在社交机器人检测中的机会和风险,设计了基于 LLM 的机器人检测器,并探索了 LLM 引导的操纵用户文本和结构化信息来逃避检测的可能性。实验结果表明,仅仅在 1000 个注释示例上进行的指令调优可以产生专门的 LLMs,它们在两个数据集上的表现比最先进的基线方法提高了高达 9.1%,而 LLM 引导的操纵策略可以将现有的机器人检测器的性能显著降低高达 29.6%,并损害机器人检测系统的校准和可靠性。
Feb, 2024