May, 2023

BotArtist:基于 Twitter 封禁的机器学习模型的 Twitter 机器人检测

TL;DR采集了一份大规模的多语言社交话语 Twitter 数据集,并通过 Twitter API 和 Botometer 提供的已带标签的 Twitter 账号数据集与另外两个热门话题(即 2022 年能源危机和阴谋论讨论)来检测 Twitter 上的机器人账号,利用基于 XGBoost 模型的新型机器学习模型和大量标记数据集相结合,可以在不同的时间段内,独立于 Twitter API 对数据集进行标记,相比于 Botometer,在两个实际应用数据集上实现了平均 11% 更高的 ROC-AUC 得分。