量化伤害

Sep, 2022

A Quantitative Account of Harm

Sander Beckers, Hana Chockler, Joseph Y. Halpern

TL;DR该论文提出了在确定性情境下关于个体与社会伤害的定量定义，并讨论了如何从个体伤害向社会伤害聚合，但简单地将个体伤害期望值相加可能导致反直觉或不适当的答案，并从决策理论文献中汲取启示。

Abstract

In a companion paper (Beckers et al. 2022), we defined a qualitative notion of harm: either harm is caused, or it is not. For practical applications, we often need to quantify harm; for example, we may want to choose the lest harmful of a set of possible interventions. We first present a quantitative definition of harm in a →

发现论文，激发创造

决策辩论：决策制定的定性模型

我们提出了一种基于规则的、基于高概率和词典排序偏好的语义、透明决策程序的质性决策模型，该模型可以描述人们如何做出简单的决策，并使计算机程序能够做同样的事情。

Feb, 2013

反事实伤害

本文提出了第一个使用因果模型来形式化定义伤害和益处的方法，并证明了不能进行反事实推理的标准机器学习算法在损害易变的情况下必定追求有害政策。并利用我们对伤害的定义，设计了一种用于决策的框架，以减少伤害。这个框架是利用反事实目标函数。我们用药物反应模型从随机对照试验的数据中学习，展示了这个框架在识别最佳药物剂量问题上的应用。我们发现，使用治疗效果选择剂量的标准方法会导致不必要的伤害，而我们的反事实方法允许我们识别出大大减少伤害而不损失疗效的剂量。

Apr, 2022

自然语言处理研究中有害文本的处理和展现

本文介绍了一个将NLP中的文本有害信息分为三个轴的分析框架，提供了处理和呈现有害文本的建议，并引入了使用文档标准来处理和呈现有害文本的方法。

Apr, 2022

有害因果分析

在自动化系统越来越广泛的应用下，需要建立一个法律和监管框架，以便确定这类系统何时及如何对他人造成伤害。然而对于定义伤害并无一定之规的问题，我们提出了一种基于因果模型和对比因果分析的质性伤害定义方法，用于处理多种伤害示例，并显示其对自动化系统相关情境推理的重要性。

Oct, 2022

如何定义有害对数据标注的影响：解释注解者如何区分令人厌恶、冒犯和有毒评论

通过研究定义'伤害'的方式是否影响注释结果，我们发现研究者定义'令人讨厌'、'冒犯'和'有害'这些伤害概念时，注释员并不将它们看作同义词，且伤害定义的特征和注释员的个人特点解释了他们在使用这些术语上的差异，结果表明我们不应该将这些伤害概念在内容监控研究中互换使用，研究者应根据研究目标明确选择要分析的伤害概念，并在概念与现有有害内容检测算法识别的概念不同时提供界定结果的信息，同时鼓励算法提供者确保其工具能够适应特定上下文的内容检测目标（例如征求工具用户的反馈）。

Sep, 2023

超越行为主义的表征伤害：测量与缓减计划

该研究旨在扩大对可代表性危害的定义，通过量化和减轻大型语言模型对认知和情感状态造成的损害，建立一个公平研究的实用度量和减轻的框架。

Jan, 2024

HarmPot：用于评估社交媒体文本离线伤害潜力的注释框架

开发了一个注释模式来构建数据集，以评估社交媒体文本的离线伤害潜力，不仅关注恶意言论或误导信息，还重点研究社交触发因素对在线内容造成的潜在伤害。

Mar, 2024

NJUST-KMG在TRAC-2024任务1和任务2中的离线危害潜力识别

该研究提出了一种方法，使用TRAC-2024离线危害潜力识别，它包括两个子任务。研究利用了一个丰富的数据集，包含几种印度语言的社交媒体评论，并由专家评分进行注释，以捕捉离线背景危害的微妙含义。我们的方法在两个不同的任务中排名第二，分别具有0.73和0.96的F1值。我们的方法主要涉及选择预训练模型进行微调，结合对应学习技术，并最终通过测试集进行集成。

Mar, 2024

一个新的偏差度量的原则方法

机器学习和数据驱动算法在决策制定领域的广泛应用已逐年增加，但相关负面影响也随之日益严重。负面数据偏差是其中之一，会对特定群体造成有害后果。为解决偏差带来的负面后果，必须首先认识到其存在，并找到一种能够理解和量化的方法。本文的主要贡献是：（1）提出了一个定义和高效量化数据集相对于保护群体偏差水平的通用算法框架；（2）定义了一种新的偏差度量方法。我们的实验结果在九个公开数据集上得到验证，并进行了理论分析，从而为该问题提供了新的见解。基于我们的方法，我们还推导出一种可能对政策制定者有用的偏差缓解算法。

May, 2024

基于预测集的决策支持系统中的反事实伤害控制

基于预测集的决策支持系统通过缩小潜在标签值的集合（即预测集），并要求用户始终从预测集中预测标签值，来帮助人们解决多类别分类任务。本文的目标是通过设计控制决策支持系统频繁造成伤害的系统。通过结构性因果模型的理论框架来对伤害概念进行特征化，并在只使用人类自身的预测的情况下，估计系统造成伤害的频率，然后引入计算框架，使用符合性风险控制来设计基于预测集的决策支持系统，并验证了准确性和反事实伤害之间的权衡关系。

Jun, 2024