在线管理的个性化干预

May, 2022

Personalized Interventions for Online Moderation

Stefano Cresci, Amaury Trujillo, Tiziano Fagni

TL;DR该研究提出一种基于个体用户的在线管理方法，该方法融合了计算机科学、社会学和心理学等领域的前沿理论和实践，并探讨了此类革新性变革所带来的最重要挑战。

Abstract

Current online moderation follows a one-size-fits-all approach, where each intervention is applied in the same way to all users. This naive approach is challenged by established socio-behavioral theories and by recent empirical results that showed the limited effectiveness of such inte

online moderation personalized interventions sociology psychology computer science

发现论文，激发创造

在线讨论的主动审查：现有实践和算法支持的潜力

为了解决恶劣的行为问题，本文研究了一种基于先发制人的维基百科谈话页面上的主动型防范模型，并探讨了自动化技术在此模型中的作用。通过与管理员的访谈及设计成分的综合分析，发现管理员已经采取了一些预防性的行为。作者建立了一个原型工具，并通过向管理员提供帮助，探索了自动化如何助力主动型防范工作流程。结果向我们展示了原型工具的优点和缺点以及进一步开发此支持技术的具体步骤。

Nov, 2022

语言模型调节员能提升在线交流的健康性吗？

本文通过一种多学科的视角，建立了对对话调节有效性的系统定义，并提出了一个综合评估框架，以在无人干预的情况下评估模型的调节能力。通过该框架进行的首个已知的对话模型作为调节员的研究发现，适当引导的模型可以对有害行为提供具体而公正的反馈，但难以影响用户提高他们的尊重和合作水平。

Nov, 2023

社交媒体内容算法化审核中被忽视的意图角色

通过考察自动检测和审查系统的最新发展以及训练数据集的成熟度，探讨了作者意图对于内容审查系统的重要性，并提出了改善自动检测和审查系统以符合道德和政策观念的策略性变革。

May, 2024

像教练，像机器人？算法内容审查中的偏见传承

通过在不同的人口子集上进行注释的文本上训练分类器来衡量算法内容调节系统的规范偏见。

Jul, 2017

小心处理：积极帮助用户评估和缓解其在线讨论中的紧张情绪

通过设计算法工具来提高用户对话中紧张氛围的意识并引导其积极回应，我们提出了一种不同于传统平台依靠管理员干预的方法。通过用户实验，我们发现这种积极主动的用户中心模式受到用户的欢迎，并可能在未来得到广泛应用。

Dec, 2022

重新考虑推特：在推文创建期间进行干预可减少冒犯内容

本研究在 Twitter 上进行随机对照试验，评估了一种新的干预方法，使发帖者有机会暂停并重新考虑他们的推文，结果发现接受干预的用户比未接受干预的用户发布的冒犯推文少 6％，该干预不仅减少了暂停后的危害推文的数量，还降低了未来的发布和回复数量。因此，让用户重新考虑评论是减少网络冒犯内容的有效机制。

Dec, 2021

仇恨言论管控的最新进展：多模态和大模型的作用

在在线交流的不断演变中，如何进行仇恨言论的管理成为一个复杂的挑战，而数字内容的多模态性质进一步加大了这一挑战。本综述全面调查了仇恨言论管理的最新进展，着重介绍了大型语言模型（LLMs）和大型多模态模型（LMMs）在其中的重要作用。通过对当前文献的深入分析，我们揭示了文本、视觉和听觉元素在传播仇恨言论中的微妙相互影响。我们发现了一种明显趋势，即主要通过整合这些模态来处理复杂性和微妙性问题。我们重点关注了 LLMs 和 LMMs 所带来的进展，这些进展已经开始重新定义检测和管理能力的边界。我们在研究中鉴定了现有的空白领域，特别是在涉及少数语言和文化的情况下，并强调了处理低资源环境的解决方案的需求。综述以展望未来的角度结束，概述了未来研究的潜在方向，包括探索新的人工智能方法论、在管理中的伦理治理以及开发更加细致入微、具有上下文意识的系统。这个全面概述的目标是促进进一步的研究，并推动协作努力，朝着更加复杂、负责任和以人为中心的数字时代仇恨言论管理方法的发展。

Jan, 2024

不偏向立场的内容不可知的推荐处理

个性化推荐系统通过提供更极端的内容加剧了意见分歧。为了解决这个问题，作者提出了不依赖实际内容的无内容偏向性的内容审核方法，并使用两种内容不可知的调节方法来改善推荐系统的建议。通过控制实验，作者证明了这种方法不仅是可行的，而且可以提高推荐的质量。

May, 2024

被封禁社区成员的轨迹：赎回、再犯和离开

该论文介绍了一种计算框架，用于研究在维基百科上被封禁用户的未来行为，并基于对所封禁用户特性及其对封禁是否公平的感知分析，提出了一系列预测任务，以确定用户在第一次违规封禁后可能采取的行为路径。

Feb, 2019

不以封面论人：理解社交媒体研究中多模态处理中的伤害

探讨社交媒体的内容限制和过滤问题，特别强调了多媒体处理所涉及的伦理问题，同时讨论了使用 Amazon Turk（MTurk）时在提供不同信息模式下 MTurk 注释者性能的差异，并针对 Twitter 用户在不同人口统计学类别下的语言进行了对 Perspective API 毒性检测器的性能审计。

Oct, 2020