互联网审查的语言特征：以新浪微博为例

Jan, 2020

互联网审查的语言特征：以新浪微博为例

Linguistic Fingerprints of Internet Censorship: the Case of SinaWeibo

Kei Yin Ng, Anna Feldman, Jing Peng

TL;DR本文研究了新浪微博上的博客文章的语言组成对博客文章被审查的可能性的影响，并开发了一个分类器，该分类器在预测博客文章是否会被审查时显著优于非专家人类。

Abstract

This paper studies how the linguistic components of blogposts collected from Sina weibo, a Chinese microblogging platform, might affect the blogposts' likelihood of being censored. Our results go along with King et al. (2013)'s Collective Action Potential (CAP) theory, which states tha

发现论文，激发创造

仇恨言论：社交媒体上基于目标的语言分析

本文通过文本语言学和心理语言学分析探讨网络仇恨言论的不同形式，发现两种仇恨言论的语言特征不同，以期深化了解并帮助检测网络仇恨言论。

Apr, 2018

利用语言和社交特征预测Instagram上敌对言论的存在和强度

本论文旨在利用语言和社交特征预测未来在线讨论中针对性评论的出现和强度，并基于Instagram评论数据集，展示其在预测任务完成中的良好表现。

Apr, 2018

在社交媒体中分析极化趋势：以21起大规模枪击事件中的推文为例

本文提出了一种基于NLP的框架，通过分析话题选择、表达方式、情感和言语作用等四个维度来研究社交媒体中的政治极化。作者通过现有的词汇方法量化这些方面，并提出了利用聚类技术识别分析主题的方法。作者将这些方法应用于对21起大规模枪击事件中的4.4M条推文进行研究，发现这些事件的讨论在政治上高度极化。结果表明，共和党更关注枪手和事件特定事实，而民主党则更关注受害者和政策变化的呼吁。同时，作者还发现了一些引导言论极化的表达方式，诸如“基础事实”以及“恐怖分子”和“疯子”这两个术语的不同使用。该研究深入了解了语言中的群体分裂表现方法，并提供了计算方法来研究这些现象。

Apr, 2019

在线平台上的辱骂语言检测：关键分析

调查了当前针对滥用语言的自动检测方法以及在线平台的内容管理政策，研究方向及未来工作发展方向。

Feb, 2021

攻击性言论分类器的替代性攻击和噪声审计

该论文从自动化方法和人工评估者两个重要角度研究社交网络内容管理，通过使用九个机器认证器在92百万条讨论美国政治议题的YouTube评论语料库上进行无声审核，介绍了一份独特的代理违法数据集，研究表明，社交媒体内容的管理具有高度主观性，并引发了关于内容管理实践的重要问题。

Jan, 2023

使用多语言Transformer模型自动分析Facebook数据的情感和仇恨言论

本文通过分析 Facebook 上代表性的 far-right Hindutva pages 数据集来解决 Social Media Platforms 上 toxic speech 和 hateful content 的问题，使用 state-of-the-art 的 XLM-T multilingual transformer-based language models 对文本内容进行情感和 hate speech 分析，并讨论预训练语言模型的性能和局限性。

Jan, 2023

多语言内容管理：Reddit案例研究

该研究介绍了一个多语言 Reddit 评论数据集，并通过对该数据集的实验分析，阐述了内容管理的挑战和相关研究问题，为自动内容管理的挑战和机遇做准备。

Feb, 2023

HarmPot：用于评估社交媒体文本离线伤害潜力的注释框架

开发了一个注释模式来构建数据集，以评估社交媒体文本的离线伤害潜力，不仅关注恶意言论或误导信息，还重点研究社交触发因素对在线内容造成的潜在伤害。

Mar, 2024

分析深度对话中的有害性：Reddit案例研究

使用基于树的方法分析在线社交媒体上用户对有害内容的行为和上下文，研究发现毒性评论会增加在线对话中产生后续毒性评论的可能性，并观察到在用户行为和模式方面，共识亵渎与非共识亵渎存在重叠的相似性。

Apr, 2024

ToxiCloakCN: 评估中文攻击性语言识别模型的鲁棒性

通过改进的数据集在汉语中测试大型语言模型（LLMs）对于侮辱性内容的检测，研究表明现有模型在存在这些干扰时检测侮辱性内容的性能明显不足，强调了对进阶技术的迫切需求以应对逃避检测机制的不断演变的策略。

Jun, 2024