超越行为主义的表征伤害:测量与缓减计划
本文通过对普及的预训练语言模型(PTLMs)的大规模数据进行实证分析,探讨测量 PTLMs 中对 13 个弱势人群的隐含偏见和有害内容所产生的表示损害的方法,并发现神经网络的深度对于减轻表示损害有所帮助。
Jan, 2023
介绍了计算系统杂交网络可能造成的几种潜在的伤害形式,探讨了这些潜在的伤害对不同利益相关方的影响,并提出了有效的伤害预防框架应该考虑包括计算系统特征、利益相关方和潜在伤害的广泛范围等在内的因素。
Nov, 2020
本文提出了第一个使用因果模型来形式化定义伤害和益处的方法,并证明了不能进行反事实推理的标准机器学习算法在损害易变的情况下必定追求有害政策。并利用我们对伤害的定义,设计了一种用于决策的框架,以减少伤害。这个框架是利用反事实目标函数。我们用药物反应模型从随机对照试验的数据中学习,展示了这个框架在识别最佳药物剂量问题上的应用。我们发现,使用治疗效果选择剂量的标准方法会导致不必要的伤害,而我们的反事实方法允许我们识别出大大减少伤害而不损失疗效的剂量。
Apr, 2022
最近的生成型 AI 系统展示了更先进的说服能力,并且越来越多地渗透到可以影响决策的领域。生成型 AI 带来了新的说服风险概况,因为它提供了相互交流和长时间互动的机会。这引起了人们对 AI 说服的伤害的忧虑,以及如何减轻这些伤害的需求,凸显出了对 AI 说服进行系统研究的需求。本文为 AI 说服的系统研究奠定了基础。我们首先提出了有关生成型 AI 的定义。我们区分了基于提供相关事实、合理推理或其他形式的值得信赖的证据的理性说服型生成型 AI,以及基于利用认知偏差和启发法或者歪曲信息的操纵型生成型 AI。我们还提出了 AI 说服伤害的一张风险图,包括经济的、身体的、环境的、心理的、社会文化的、政治的、隐私的和自主权的伤害的定义和示例。然后,我们介绍了有助于有害说服的机制图。最后,我们提供了一种用于减轻说服过程伤害的方法概述,包括用于操纵分类和红队测试的提示工程。未来工作将使这些减轻措施具体化,并研究不同类型的说服机制之间的相互作用。
Apr, 2024
本研究使用 ConceptNet 知识库,定量地定义并量化了其偏见,研究了其在四个不同人群的表现差异,并提出了一种基于过滤的偏见缓解方法,最终发现该方法能在减轻资源和模型中的问题方面发挥作用,但会导致性能下降,还需要进一步的研究以建立更公平、更强大的常识模型。
Mar, 2021
本文提出以量化社会科学的测量建模作为理解计算机系统公平性的框架,并探讨了由于测量建模中的理论构想和实际操作不匹配而引起的公平性问题,提供了一系列工具来明确和测试构想及其实际操作,并为针对不同背景下对公平的理论性相关性进行了阐述和解决。
Dec, 2019
我们提出了一个框架来自动化测量大型语言模型(LLMs)和相关产品与服务的负责任人工智能(RAI)指标。该框架基于现有的技术和社会技术专业知识,并利用了最先进的 LLMs(如 GPT-4)的能力来自动测量 LLMs 可能违反一系列 RAI 相关原则的伤害。该框架可以与领域特定的社会技术专业知识结合使用,以针对未来的新伤害领域创建测量。通过实施该框架,我们旨在推动更高级的伤害测量工作,并进一步促进 LLMs 的负责任使用。
Oct, 2023
机器学习和数据驱动算法在决策制定领域的广泛应用已逐年增加,但相关负面影响也随之日益严重。负面数据偏差是其中之一,会对特定群体造成有害后果。为解决偏差带来的负面后果,必须首先认识到其存在,并找到一种能够理解和量化的方法。本文的主要贡献是:(1)提出了一个定义和高效量化数据集相对于保护群体偏差水平的通用算法框架;(2)定义了一种新的偏差度量方法。我们的实验结果在九个公开数据集上得到验证,并进行了理论分析,从而为该问题提供了新的见解。基于我们的方法,我们还推导出一种可能对政策制定者有用的偏差缓解算法。
May, 2024