- 基于预测集的决策支持系统中的反事实伤害控制
基于预测集的决策支持系统通过缩小潜在标签值的集合(即预测集),并要求用户始终从预测集中预测标签值,来帮助人们解决多类别分类任务。本文的目标是通过设计控制决策支持系统频繁造成伤害的系统。通过结构性因果模型的理论框架来对伤害概念进行特征化,并在 - 打击深度伪造视频:应对国家安全威胁和权利侵犯的政策
该研究提供了针对深度伪造威胁的政策建议,旨在解决深度伪造的供应链中的多个环节,并指出深度伪造对全球安全和个人自由的日益严重威胁。
- MiTTenS: 评估翻译中的误用性别识别数据集
测量将人的性别识别翻译错误地再现的潜在伤害,并评估翻译系统的表现。
- 保护社会免受 AI 误用:何时限制 AI 能力是必要的?
人工智能(AI)系统将越来越常被用于造成伤害,为了防止对 AI 的一些错误使用,本文提出了一种减少 AI 误用的干预分类法,重点在于对于误用所需的特定步骤(误用链)进行干预以及确定是否需要此干预。
- 结构类似语言模型:将人工智能作为自动化主体进行分析
本文基于精神分析学和批判性媒体研究的资源,将大型语言模型(LLMs)作为自动化主体进行分析,并通过这种方式对 AI 行为进行分析,包括其对偏见和伤害的产生。我们介绍了语言模型的重要性和风险,并通过与 OpenAI 的 InstructGPT - 使用实际因果的道德强化学习
提出了一种基于因果道德的在线强化学习方法,并给出了应用该方法解决道德困境的案例,该方法可以使代理程序在学习决策时考虑是否造成伤害,更好地符合我们的道德判断。
- 反事实伤害
本文提出了第一个使用因果模型来形式化定义伤害和益处的方法,并证明了不能进行反事实推理的标准机器学习算法在损害易变的情况下必定追求有害政策。并利用我们对伤害的定义,设计了一种用于决策的框架,以减少伤害。这个框架是利用反事实目标函数。我们用药物 - 视觉特征提取器系统评估的公平性指标
该研究提出了三个公平指标,以量化视觉系统的伤害和偏见,并定义了适用于各种计算机视觉模型的精确实验方案,以促进计算机视觉研究中的公平测评。
- MM跨学科方法探讨人工智能对社会影响的理解
人工智能创新主要关注 “what” 和 “how” 问题,忽视可能的危害与社会背景,导致了潜在的社会技术问题,因此我们需要计算机科学和社会学科之间更紧密的联系。
- 克服 AI 集成系统开发和部署中的想象力失败
介绍了计算系统杂交网络可能造成的几种潜在的伤害形式,探讨了这些潜在的伤害对不同利益相关方的影响,并提出了有效的伤害预防框架应该考虑包括计算系统特征、利益相关方和潜在伤害的广泛范围等在内的因素。
- EMNLP使用注意力机制和语言特征的讽刺新闻检测和分析
该研究通过引入神经网络和关注机制,考虑段落级别的语言特征来有效识别讽刺新闻,揭示重要的特征在不同级别的作用差异。