内容调控中的推迟学习：人工智能与人类的相互作用

Feb, 2024

内容调控中的推迟学习：人工智能与人类的相互作用

Learning to Defer in Content Moderation: The Human-AI Interplay

Thodoris Lykouris, Wentao Weng

TL;DR在线平台上成功的内容管理依赖于人工智能协作方法，这篇论文介绍了一种模型来捕捉内容管理中的人工智能相互作用，提出了一种近乎最优的学习算法来平衡选择性采样数据集的分类损失、未审核帖子的独特损失和人工审核系统的延迟损失。

Abstract

Successful content moderation in online platforms relies on a human-AI collaboration approach. A typical heuristic estimates the expected harmfulness of a post and uses fixed thresholds to decide whether to remov

content moderation human-ai collaboration approach heuristic human review system learning algorithm

发现论文，激发创造

通过有条件委托的方式，实现人工智能与人类的协同合作：内容审核案例研究

该研究论文探讨了如何通过条件委托来实现人工智能和人类的有效合作，通过进行内容审查等测试实验表明有该方法有提高模型性能的潜力，并研究了人工智能解释等因素对该方法的影响。

Apr, 2022

有限专家预测下的顺延学习

本文提出了一个三步方法，可以使用一个较小的人类专家预测集训练学习延迟算法。该方法涉及使用具有地面真实标签的嵌入模型进行训练，然后进行专家能力预测器模型的训练，生成人工专家预测。我们在两个公共数据集上评估了我们的方法，并展示了即使对每个类别只有少量的专家预测，这些算法也能超过单独使用人类专家和人工智能的性能。

Apr, 2023

面向多个专家的无偏准确推迟

我们提出了一个框架，在混合机器学习模型和专家预测的预测系统中，同时学习分类器和推迟系统，通过推迟到一个或多个人类专家来确保较低置信度的分类器的准确性和公平性。测试结果表明，我们的学习框架显著提高了最终预测的准确性和公平性，而且在一个实际的内容审核数据集上也优于传统基线。

Feb, 2021

负责任预测：通过学习延迟提高公平性和准确性

通过一个包含自动模型和外部决策者的两阶段框架，本文探讨了多个决策者（自动化和人类）之间的相互作用如何影响算法的开发。提出了 “学习推迟” 这一概念，通过考虑其他参与者的影响因素，将拒绝学习推广。结果表明，这种方法可以使系统的准确性和公正性得到显著提高，即使对于不一致或有偏见的用户。

Nov, 2017

人工智能交互在选择性预测中的作用

研究了选择性预测系统中人机交互的影响，通过不同类型的信息传递比较两种消息传递的组合方式对人类判断准确率的影响，发现必须仔细考虑如何将推迟决策传达给人类才能更好地设计选择性预测系统，同时使用人机交互框架仔细评估人工智能团队的总体准确性。

Dec, 2021

像教练，像机器人？算法内容审查中的偏见传承

通过在不同的人口子集上进行注释的文本上训练分类器来衡量算法内容调节系统的规范偏见。

Jul, 2017

谁来保护版主？众包图像审核案例分析

本文研究通过模糊图片，减少内容审核员将受精神和情感损伤的私人数据泄露给他们。

Apr, 2018

有效学习预测人类能力的辅助模型

这篇论文介绍了在专家推迟决策的场景下，利用学习算法提高决策准确性的方法，通过分析一系列代理损失函数的理论性质，设计并使用最小量的数据训练出高效准确的决策系统。

Jul, 2022

基于人工智能的排队系统的设计和调度

基于预测模型的最优调度决策在服务系统中的关键是理解预测误差对其他作业的延迟产生的外部性对拥塞的影响。我们在应用中考虑了预测模型与人类服务器交互的情况（例如内容审查），设计了一个基于指标的策略，以近乎最优的方式结合了预测的类别信息，通过对重负载下拥塞成本的特征化来指导预测模型的设计，并针对基于人工智能的任务划分设计了一种新颖的排队系统。我们以实际在线评论为基础，通过微调大型语言模型构建鉴别有毒性的分类器，展示了我们的框架。

Jun, 2024

内容审查中的算法任意性

机器学习在在线内容管理中广泛使用，但其引入了预测多样性等挑战，该研究旨在分析” 预测多样性 “如何影响内容管理工具的分类结果、社会群体的不平等影响以及与人工分类的对比，结果表明算法扩展的内容管理存在着过度管理人权的风险，为了减轻这些风险，需要通过增加透明度来识别和监管内容管理的任意性。

Feb, 2024