- 分析深度对话中的有害性:Reddit 案例研究
使用基于树的方法分析在线社交媒体上用户对有害内容的行为和上下文,研究发现毒性评论会增加在线对话中产生后续毒性评论的可能性,并观察到在用户行为和模式方面,共识亵渎与非共识亵渎存在重叠的相似性。
- 建模社交媒体帖子的政治取向:一项扩展分析
通过使用新闻媒体偏见和帖子内容来标记社交媒体帖子的两种启发式方法,以及与随机抽取的人工标注数据集进行比较,我们展示了当前机器学习模型在预测社交媒体帖子的政治倾向方面的改进性能,采用传统的监督学习和少样本学习设置。
- ICML理解人口多样化的空间社交媒体话语中的词汇和情感本体
通过分析不同社会人群的评论数据,本研究旨在了解空间在线社交媒体评论数据中的语言和社会人口特征,包括英语语言风格、情感表达和词汇多样性。研究发现,这些特征在有效区分不同群体方面具有显著效果,其中使用 n-gram 词汇特征和基于 Transf - EmojiLM: 建模新的表情符号语言
通过从大型语言模型合成大规模的文本 - 表情符号平行语料库,并在此基础上提取面向文本 - 表情符号双向翻译的序列到序列模型,我们的研究在公共基准测试和人工评估中表现出优于强基准模型的性能,且平行语料库对与表情符号相关的后续任务有益。
- COVID 大流行期间德国推文的政策偏好变化
在线社交媒体成为交换政治观点的重要论坛之一。在 COVID 措施得到回应的情况下,公民们在这些平台上直接表达其政策偏好。然而,对在线社交媒体中的政治偏好进行量化仍然具有挑战性,因为海量的内容需要可伸缩的自动化政治偏好提取,而目前的机器学习技 - 噪声自训练与数据扩增在冒犯与仇恨言论检测任务中的应用
在线社交媒体存在大量冒犯和仇恨言论,为了解决这个问题,需要自动检测这些言论,而手动标注高质量的数据集困难且花费高。本研究探讨了使用自我训练方法和文本数据增强技术来提高训练数据量和模型鲁棒性的效果,在两个冒犯和仇恨言论数据集上进行实验证明了自 - 在线媒体字数增长的 Logistic 方程微小扩展:对社会增长现象多样性的参数描述
通过分析日本博客文章并使用扩展的 Logistic 方程式,研究了新词汇在全国性在线社交媒体上的增长模式和趋势,并发现了新词汇增长的模式与传统复杂系统的逻辑函数有所不同,同时对 Google Trends 数据进行了验证。
- RAFT:针对少样本滥用语言检测的理由适配器
研究旨在通过使用 RAFT (Rationale Adaptor for Few-shoT classification) 来检测网络社交媒体中的恶意语言。该方法使用多任务学习设置联合学习合理性、目标和标签,建立了两种合理性集成的 BERT - 通过生成对抗网络在在线社交媒体中检测虚假账户
本文提出了一种使用 GAN 算法通过 Twitter 数据集计算用户之间的相似度,以识别和检测假用户账户的新方法,并实验结果表明,该方法的准确率能够达到 98.1%。
- 量化仇恨社群如何在线上激进化用户
本文以 Reddit 社区为例,测量加入具有仇恨言论的极端社区对该社交媒体平台中仇恨言论传播的影响,研究发现加入这种社区会导致恶意言论在平台上传播,并且这种负面影响会持续数月,为降低仇恨言论传播的风险,有必要对这些 “回音室” 进行管理。
- 探索基于 Transformer 的模型以识别英语和印度雅利安语中的仇恨言论和攻击性内容
本篇论文探索了基于 Transformer 的多种机器学习模型,用于探测英语和印度 - 雅利安语中的仇恨言论和冒犯性内容,研究团队 “超级马里奥” 采用 mBERT、XLMR-large、XLMR-base 等多种模型,我们在 Code-M - 利用多模深度学习检测网络反犹太主义 -《颠覆犹太统治
该研究提出了首个基于多模态检测在线反犹内容的自动化方法,致力于解决在线社交媒体不断泛滥的反犹行为。该方法包括从帖子中提取图像和文本信息,识别反犹言论的类别,以及评估系统的有效性和鲁棒性等方面。
- COLINGAbuseAnalyzer: 用于 Gab 帖子的滥用检测、严重程度和目标预测
该论文提出了一种基于 “Gab” 数据集的在线滥用行为检测和评估方法,该方法可以确定滥用性内容的存在性,严重性和目标,并可达到 80%的存在性检测准确率,82%的目标检测准确率以及 65%的滥用严重性预测准确率
- 在线社交媒体中仇恨言论的扩散
研究分析了恶意用户和非恶意用户在 Gab(gab.com)上生成的帖子的流动和动态,并发现恶意内容扩散得更远、更广、更快,具有更大的影响力。恶意用户更具有影响力、受欢迎和凝聚力,这扩展了我们对线上仇恨言论的理解。
- CED:可信的社交媒体谣言早期检测
这篇论文提出了一种名为可信早期检测 (CED) 的新颖的谣言检测模型,它将所有谣言候选人的转发视为一个序列,通过寻找一个早期的时间点进行可信预测,能够显著减少预测时间跨度超过 85%并优于所有现有基线的准确性表现。
- ACL使用无监督文本风格转换应对社交媒体上的攻击性语言
本研究提出了一种使用无监督文本样式转换的新方法来解决在线社交媒体中的人身攻击问题,该方法利用合作分类器、注意力和循环一致性损失对非平行数据进行编码器 - 解码器的训练,并在 Twitter 和 Reddit 的数据上进行了实验,结果表明该方 - Twitter 辱骂行为的大规模众包和特征化
该研究对 Twitter 上多种形式的虐待行为进行了 8 个月的综合研究,提出了基于众包的增量迭代方法来注释大规模推文集合,最终确定了一组稳健的标签,从而在其收集和注释的 10 万条推文上展示了相关数据的发现和总结。
- 量化搜索偏见:调查社交媒体政治搜索偏见的来源
本研究提出了一种框架来量化搜索系统中源自不同来源的偏见,并将其应用于 Twitter 上与政治相关的查询,发现无论是输入数据还是排名系统都会显著地在搜索结果中产生不同程度和不同方式的偏见,并讨论了这些偏见的后果以及社交媒体搜索系统界面中信号 - 社交游戏直播平台中的性别对话
本研究通过分析 Twitch 平台的十亿聊天消息,结合计算机文本分析方法,揭示了社交游戏平台中性别不平等和物化现象的存在,并使用 “段落向量” 方法创建了预测模型,成功鉴别了聊天消息中的流信息性别以及时刻呈现的用户性别偏好。
- 科学与阴谋:(误)信息时代中的集体叙事
研究发现,在社交媒体上,信息消费者聚集在具有类似信息消费模式的独特叙事周围,尤其是在涉及科学与替代新闻时;而传播虚假和嘲讽性信息与阴谋论的新闻的常规受众是最愿意与其互动的。