在计算世界中:大规模聚类和检测虚假社交互动
本研究提出了一种基于 LDA 潜在狄利克雷分布的新型垃圾邮件分类方法,提取了主题分布模式的本地和全局信息,优于其他最先进的方法,能够有效识别社交网络上类似合法用户的智能垃圾邮件。
Apr, 2016
本研究采用社交网络分析的方法,针对 YouTube 频道中的可疑评论者类似行为进行检测和鉴别,分析了 20 个 YouTube 频道(包括 7782 个视频、294199 名评论者和 596982 条评论)中关于美国军事的虚假观点,并发现了这些频道之间存在显著相似性,从而为揭示和解决 YouTube 频道上的可疑行为提供了更好的理解和应对策略。
Nov, 2023
本研究通过谱聚类方法识别社区中存在高行为相似性的 Email 地址收集者,透露了垃圾邮件发送者之间的社交网络,并确定了垃圾邮件发送者的行为特征。发现大多数垃圾邮件发送者要么只发送网络钓鱼邮件,要么根本不发送,社区内的大多数垃圾邮件发送者也只发送网络钓鱼邮件或根本不发送,部分垃圾邮件发送者组也表现出了一致的时间行为和相似的 IP 地址。
Apr, 2013
本文提出了一种从社交媒体用户活动的短时段中学习映射的方法,以产生用户固有特征相似度的向量空间,其中距离捕捉到相应用户的相似性,并通过 Reddit、Twitter 和 Wikipedia 的数据进行了全面评估。
Oct, 2019
本文探讨了预测 YouTube 视频在校园网络中的流行度的方法,提出了一种融合视频到达时间和社交扩散模型的缓存方法,通过学习网络中用户之间分享的概率和使用数学流行病学的病毒传播模型来预测未来视频访问次数,并取得了 14% 的命中率提高。
Aug, 2013
提出了一种基于嵌入学习的方法,用于识别社交媒体中同一用户的不同帐户,并在没有人工标注数据的情况下,通过将变量大小的用户活动样本映射到矢量空间中获得良好的链接准确性。
May, 2021
本文讨论了如何检测大型在线网络中的可疑用户及其潜在的商业利用,提出了一种对抗性算法 fBox,旨在捕捉目前基于谱分析方法检测不到的小规模袭击。该算法通过理论分析和实验验证具有高准确性和可扩展性,在 Twitter 上的实际数据上取得了良好的表现,可以用于检测持久存在的可疑账户。
Oct, 2014
通过对社交媒体中的地理标记帖子进行全球性分析,本文介绍了一种检测城市中意外行为和通过帖子分析情况的方法。该方法使用了基于密度的聚类技术和自然语言处理技术,利用简单的硬件资源在不到一小时的时间内分析了纽约市长达七个月的 Instagram 数据,并且可以轻松适应其他地理标记数据源。
Dec, 2023
我们提出了一种新的方法,用于在 LinkedIn 在线社交网络注册和建立连接之前立即检测伪造和大型语言模型(LLM)生成的个人资料。该方法使用 LinkedIn 个人资料中的文本信息,并引入 “Section and Subsection Tag Embedding(SSTE)” 方法,以增强这些数据的区分性特征,以区分合法个人资料和由冒名顶替者手动或使用 LLM 创建的个人资料。我们收集了 3600 个 LinkedIn 个人资料,并将其公开用于研究目的。我们展示了该方法可以在所有词嵌入中实现约 95% 的准确率,可以区分合法个人资料和伪造个人资料。此外,我们还展示了 SSTE 对于识别由 LLM 生成的个人资料具有很高的准确率,即使在训练阶段没有使用 LLM 生成的个人资料,当训练集中添加仅 20 个 LLM 生成的个人资料时,可以实现约 90% 的准确率。这是一个重要的发现,因为在不久的将来将出现多种 LLM,设计一个能够识别由各种 LLM 创建的个人资料的单一系统将变得非常具有挑战性。
Jul, 2023