在线管理的个性化干预
为了解决恶劣的行为问题,本文研究了一种基于先发制人的维基百科谈话页面上的主动型防范模型,并探讨了自动化技术在此模型中的作用。通过与管理员的访谈及设计成分的综合分析,发现管理员已经采取了一些预防性的行为。作者建立了一个原型工具,并通过向管理员提供帮助,探索了自动化如何助力主动型防范工作流程。结果向我们展示了原型工具的优点和缺点以及进一步开发此支持技术的具体步骤。
Nov, 2022
本文通过一种多学科的视角,建立了对对话调节有效性的系统定义,并提出了一个综合评估框架,以在无人干预的情况下评估模型的调节能力。通过该框架进行的首个已知的对话模型作为调节员的研究发现,适当引导的模型可以对有害行为提供具体而公正的反馈,但难以影响用户提高他们的尊重和合作水平。
Nov, 2023
通过考察自动检测和审查系统的最新发展以及训练数据集的成熟度,探讨了作者意图对于内容审查系统的重要性,并提出了改善自动检测和审查系统以符合道德和政策观念的策略性变革。
May, 2024
通过设计算法工具来提高用户对话中紧张氛围的意识并引导其积极回应,我们提出了一种不同于传统平台依靠管理员干预的方法。通过用户实验,我们发现这种积极主动的用户中心模式受到用户的欢迎,并可能在未来得到广泛应用。
Dec, 2022
本研究在 Twitter 上进行随机对照试验,评估了一种新的干预方法,使发帖者有机会暂停并重新考虑他们的推文,结果发现接受干预的用户比未接受干预的用户发布的冒犯推文少 6%,该干预不仅减少了暂停后的危害推文的数量,还降低了未来的发布和回复数量。因此,让用户重新考虑评论是减少网络冒犯内容的有效机制。
Dec, 2021
在在线交流的不断演变中,如何进行仇恨言论的管理成为一个复杂的挑战,而数字内容的多模态性质进一步加大了这一挑战。本综述全面调查了仇恨言论管理的最新进展,着重介绍了大型语言模型(LLMs)和大型多模态模型(LMMs)在其中的重要作用。通过对当前文献的深入分析,我们揭示了文本、视觉和听觉元素在传播仇恨言论中的微妙相互影响。我们发现了一种明显趋势,即主要通过整合这些模态来处理复杂性和微妙性问题。我们重点关注了 LLMs 和 LMMs 所带来的进展,这些进展已经开始重新定义检测和管理能力的边界。我们在研究中鉴定了现有的空白领域,特别是在涉及少数语言和文化的情况下,并强调了处理低资源环境的解决方案的需求。综述以展望未来的角度结束,概述了未来研究的潜在方向,包括探索新的人工智能方法论、在管理中的伦理治理以及开发更加细致入微、具有上下文意识的系统。这个全面概述的目标是促进进一步的研究,并推动协作努力,朝着更加复杂、负责任和以人为中心的数字时代仇恨言论管理方法的发展。
Jan, 2024
个性化推荐系统通过提供更极端的内容加剧了意见分歧。为了解决这个问题,作者提出了不依赖实际内容的无内容偏向性的内容审核方法,并使用两种内容不可知的调节方法来改善推荐系统的建议。通过控制实验,作者证明了这种方法不仅是可行的,而且可以提高推荐的质量。
May, 2024
该论文介绍了一种计算框架,用于研究在维基百科上被封禁用户的未来行为,并基于对所封禁用户特性及其对封禁是否公平的感知分析,提出了一系列预测任务,以确定用户在第一次违规封禁后可能采取的行为路径。
Feb, 2019
探讨社交媒体的内容限制和过滤问题,特别强调了多媒体处理所涉及的伦理问题,同时讨论了使用 Amazon Turk(MTurk)时在提供不同信息模式下 MTurk 注释者性能的差异,并针对 Twitter 用户在不同人口统计学类别下的语言进行了对 Perspective API 毒性检测器的性能审计。
Oct, 2020