在计算世界中：大规模聚类和检测虚假社交互动

WWWDec, 2015

在计算世界中：大规模聚类和检测虚假社交互动

In a World That Counts: Clustering and Detecting Fake Social Engagement at Scale

Yixuan Li, Oscar Martinez, Xing Chen, Yi Li, John Hopcroft

TL;DR本文介绍了一种名为 Leas 的有效方法，用于追踪在 YouTube 上的虚假社交交互活动，利用图谱扩展的过程和基于用户和 YouTube 视频之间的行为模式的时间图谱分析来解决问题。我们的方法在 Google 部署时表现良好，其手动审核的准确性可达 98％，比现有算法快 10 倍。

Abstract

How can web services that depend on user generated content discern fake social engagement activities by spammers from legitimate ones? In this paper, we focus on the social site of →

web services user generated content fake engagement activities youtube leas

发现论文，激发创造

社交网络上 “智能” 垃圾邮件的检测：主题模型方法

本研究提出了一种基于 LDA 潜在狄利克雷分布的新型垃圾邮件分类方法，提取了主题分布模式的本地和全局信息，优于其他最先进的方法，能够有效识别社交网络上类似合法用户的智能垃圾邮件。

Apr, 2016

利用 Graph2Vec 检测 YouTube 上可疑评论者群体行为

本研究采用社交网络分析的方法，针对 YouTube 频道中的可疑评论者类似行为进行检测和鉴别，分析了 20 个 YouTube 频道（包括 7782 个视频、294199 名评论者和 596982 条评论）中关于美国军事的虚假观点，并发现了这些频道之间存在显著相似性，从而为揭示和解决 YouTube 频道上的可疑行为提供了更好的理解和应对策略。

Nov, 2023

通过谱聚类揭示垃圾邮件发送者的社交网络

本研究通过谱聚类方法识别社区中存在高行为相似性的 Email 地址收集者，透露了垃圾邮件发送者之间的社交网络，并确定了垃圾邮件发送者的行为特征。发现大多数垃圾邮件发送者要么只发送网络钓鱼邮件，要么根本不发送，社区内的大多数垃圾邮件发送者也只发送网络钓鱼邮件或根本不发送，部分垃圾邮件发送者组也表现出了一致的时间行为和相似的 IP 地址。

Apr, 2013

学习社交媒体用户的不变表示

本文提出了一种从社交媒体用户活动的短时段中学习映射的方法，以产生用户固有特征相似度的向量空间，其中距离捕捉到相应用户的相似性，并通过 Reddit、Twitter 和 Wikipedia 的数据进行了全面评估。

Oct, 2019

一种基于潜在社交的 YouTube 流行度预测方法

本文探讨了预测 YouTube 视频在校园网络中的流行度的方法，提出了一种融合视频到达时间和社交扩散模型的缓存方法，通过学习网络中用户之间分享的概率和使用数学流行病学的病毒传播模型来预测未来视频访问次数，并取得了 14% 的命中率提高。

Aug, 2013

基于上下文统一可解释学习的视频讲座用户参与度

本文提出了 CLUE 模型，采用多模态特征学习从在线教学视频中提取特征，并提供可解释反馈和用户参与度得分。

Jan, 2022

深度度量学习方法用于账户链接

提出了一种基于嵌入学习的方法，用于识别社交媒体中同一用户的不同帐户，并在没有人工标注数据的情况下，通过将变量大小的用户活动样本映射到矢量空间中获得良好的链接准确性。

May, 2021

使用对抗视角的 fBox 技术识别可疑链接行为

本文讨论了如何检测大型在线网络中的可疑用户及其潜在的商业利用，提出了一种对抗性算法 fBox，旨在捕捉目前基于谱分析方法检测不到的小规模袭击。该算法通过理论分析和实验验证具有高准确性和可扩展性，在 Twitter 上的实际数据上取得了良好的表现，可以用于检测持久存在的可疑账户。

Oct, 2014

通过密度聚类和线索聚集技术发现地理相关的故事

通过对社交媒体中的地理标记帖子进行全球性分析，本文介绍了一种检测城市中意外行为和通过帖子分析情况的方法。该方法使用了基于密度的聚类技术和自然语言处理技术，利用简单的硬件资源在不到一小时的时间内分析了纽约市长达七个月的 Instagram 数据，并且可以轻松适应其他地理标记数据源。

Dec, 2023

虚假和 LLM 生成的领英档案的临近威胁：检测和预防的挑战与机遇

我们提出了一种新的方法，用于在 LinkedIn 在线社交网络注册和建立连接之前立即检测伪造和大型语言模型（LLM）生成的个人资料。该方法使用 LinkedIn 个人资料中的文本信息，并引入 “Section and Subsection Tag Embedding（SSTE）” 方法，以增强这些数据的区分性特征，以区分合法个人资料和由冒名顶替者手动或使用 LLM 创建的个人资料。我们收集了 3600 个 LinkedIn 个人资料，并将其公开用于研究目的。我们展示了该方法可以在所有词嵌入中实现约 95% 的准确率，可以区分合法个人资料和伪造个人资料。此外，我们还展示了 SSTE 对于识别由 LLM 生成的个人资料具有很高的准确率，即使在训练阶段没有使用 LLM 生成的个人资料，当训练集中添加仅 20 个 LLM 生成的个人资料时，可以实现约 90% 的准确率。这是一个重要的发现，因为在不久的将来将出现多种 LLM，设计一个能够识别由各种 LLM 创建的个人资料的单一系统将变得非常具有挑战性。

Jul, 2023