Twitter 自动账户的词汇分析

WWWDec, 2018

Lexical analysis of automated accounts on Twitter

Isa Inuwa-Dutse, Bello Shehu Bello, Ioannis Korkontzelos

TL;DR本文探究社交机器人与真实账户之间的语言差异，提出的词汇丰富度、词汇复杂度和表情符号分布等识别特征，可以有效地用于机器学习模型的训练和社交机器人识别。

Abstract

In recent years, social bots have been using increasingly more sophisticated, challenging detection strategies. While many approaches and features have been proposed, →

social bots detection strategies lexical richness machine learning classifier tweet content features

发现论文，激发创造

在线人机交互：检测、估计和描述

本文提出了一个基于超过一千个公共数据和元数据特征的框架，用于检测 Twitter 上的社交媒体自主实体（即社交媒体机器人）。经测试，此框架能够与公开的 Twitter 机器人数据集高度契合，可以检测不同类型的机器人，如垃圾邮件发送者、自我推广者和使用连接应用程序发布内容的账户等，并且估计在活跃的 Twitter 账户中有 9% 至 15% 的机器人，机器人相互之间的交互关系有助于研究用于相互之间通信的转发和提到策略。

Mar, 2017

用于机器人检测的深度神经网络

该论文提出了一种基于深度神经网络的机器人检测方法，通过使用元数据并将其作为辅助输入，CNN 处理推文文本。同时，作者们提出了一种基于合成少数过抽样的技术，从少量已标记数据（大约 3000 个 sophisticated Twitter bots 的样例）生成适合深度 CNN 训练的大型标记数据集。作者还在账户级别的机器人检测中应用了相同的架构，并在保证小型和可解释特征，以及最小训练数据的情况下，实现了几乎完美的分类准确度。从仅一个推文中，我们的体系结构就可以实现高分类精度（AUC > 96%）将机器人与人类分开。

Feb, 2018

从网络行为到图像：一种新的社交机器人检测方法

本论文从 Twitter 账号出发，提出了使用卷积神经网络的新型算法，将账号执行的操作序列转化为图片，并进行图像分类，从而进行 bot 检测。结果证实了该方法的有效性，因为它与现有技术处在同一水平，并在某些情况下更好。

Apr, 2023

使用双向长短时记忆神经网络和词嵌入技术进行 Twitter 机器人检测

本文通过采用双向 LSTM 循环神经网络来区分类别 Twitter 上的人类账户和垃圾邮件机器人账户，实现对无先验知识的 Twitter 账户进行检测，以及不需要任何手工特征设计，最终得到良好的实验结果。

Feb, 2020

利用在线用户画像检测 Twitter 上的社交机器人

通过机器学习模型，利用推文文本中提取的用户资料来检测社交机器人（social bots）的研究，其主要贡献为提出一种利用个人信息相似性来区分社交机器人和人类用户的新模型，并创建了一个包含 6900 个 Twitter 账户资料的公共数据集。

Mar, 2022

仅凭名称便可检测和标识机器人

本研究提出了一个多模型的工具箱方法，以便在各个数据细粒度层次上进行检测，并使用随机字符串检测过滤推特流以获取标记数据进行后续研究。

Dec, 2018

一个基于人工智能的恶意社交机器人网络的解剖

利用启发式方法，本研究发现 1,140 个通过 Twitter botnet 使用 ChatGPT 生成人类风格内容的虚假个人的密集集群，并通过人工注释验证。ChatGPT 生成的内容宣传可疑网站并传播有害评论。尽管 AI botnet 中的账户可以通过其协调模式检测到，但目前最先进的大语言模型内容分类器无法区分它们和真实用户账户。这些发现强调了 AI 助推社交机器人带来的威胁。

Jul, 2023

可扩展且具有普适性的社交机器人检测通过数据选择

本研究提出一种基于最少账户元数据的框架，实现了对 Twitter 公共推文全量实时分析的高效和可靠的社交机器人分类，通过对训练和验证的大量数据集进行严格的验证系统，找到了挑选子集进行训练的方式比全量训练更好的模型精度和泛化性。

Nov, 2019

BotArtist：基于 Twitter 封禁的机器学习模型的 Twitter 机器人检测

采集了一份大规模的多语言社交话语 Twitter 数据集，并通过 Twitter API 和 Botometer 提供的已带标签的 Twitter 账号数据集与另外两个热门话题（即 2022 年能源危机和阴谋论讨论）来检测 Twitter 上的机器人账号，利用基于 XGBoost 模型的新型机器学习模型和大量标记数据集相结合，可以在不同的时间段内，独立于 Twitter API 对数据集进行标记，相比于 Botometer，在两个实际应用数据集上实现了平均 11% 更高的 ROC-AUC 得分。

May, 2023

利用 Transformer 在 Twitter 中多模态检测社交垃圾机器人

早期检测社交垃圾机器人对于防范传播虚假信息和操控公众意见至关重要。本研究首次使用用户描述字段和图像，采用预训练的视觉模型以及 TwHIN-BERT 来获取文本和图像的表征，并提出了三种不同的融合方法进行多模态融合，并在 Cresci '17 数据集上进行了广泛实验，证明了我们方法在准确率上具有显著优势，达到了 99.98%。

Aug, 2023