- EMNLPDocNet: 归纳偏置检测模型中的语义结构
社交媒体正在成为新闻的主要入口,但由于人们的观点不同,新闻将存在偏见。本文探讨了新闻文章中经常被忽视的偏见检测方面:语义结构。我们提出了一种新颖的归纳式、资源有限的文档嵌入和偏见检测模型(DocNet),其性能超过了大型语言模型。我们还证明 - 在机器学习项目中,通过偏差检测拓展具有可变性感知的模型选择
该论文描述了将一个具有偏差检测的自适应可变性感知模型选择方法扩展到机器学习项目中的工作,该方法通过使用基于文献中提出的启发式方法的特征模型来对影响模型选择的因素的可变性进行建模,并在一个特定的案例研究中进行实验证明了该方法的有效性,并为机器 - 微妙的女性歧视检测与缓解:一个由专家注释的数据集
使用新颖的数据集开发方法,Biasly 数据集以与文献中独特的方式捕捉了对女性的厌恶的微妙之处。与多领域专家和标注员合作构建的数据集包含了电影字幕的标注,捕捉了北美电影中的口语表达对女性的厌恶。该数据集可用于各种 NLP 任务,包括分类、严 - 预训练的语音处理模型含有类人的偏见并传播至语音情感识别
我们提出了一种名为 SpEAT 的方法,用于检测预训练模型中的偏见;使用该方法对 16 个英语语音模型进行测试,发现预训练语音模型普遍存在人类类似的偏见,并证明这些偏见会对 Speech Emotion Recognition 任务产生实际 - 给定对语言生成系统的黑盒访问权限后的逆向工程解码策略
我们通过反向工程解码方法,发现了文本生成时所使用的解码策略(例如 top-$k$ 或核心采样),这对于检测生成文本具有重要意义,并可揭示选择解码设置时造成的偏倚问题。我们对多种开源语言模型家族和生产系统(如 ChatGPT)进行了攻击。
- CBBQ:一個由人工智能協作策劃的中文偏差測試數據集,供大型語言模型使用
本文提供一个超过 10 万个问题的中文偏见基准数据集,包括与中国文化和价值观相关的 14 个社会维度中的刻板印象和社会偏见,通过广泛文献综述、生成环境、AI 辅助去歧义生成、手动审核和重组等步骤,展示了数据集的广泛覆盖和高多样性,实验表明所 - 偏见 X:对含有社会隐含偏见的有害内容进行 “缓慢思考” 辅助管理
引入 BiasX 框架,通过大规模的众包用户研究,探索使用自由文本解释内容中隐含的社会偏见,以有效增强内容审核设置,我们发现,参与者因正确识别微妙的(非)有毒内容而受益。解释的质量很关键,完美的机器生成解释(+2.4% 的有毒难题)帮助不如 - BiasAsker:测量会话型人工智能系统的偏见
提出自动化框架 BiasAsker,通过构建包含 841 个社会群体和 8110 个有偏见属性的、综合性的社会偏见数据集,使用存在性测量的新方法,识别并衡量对话 AI 系统中的绝对偏见和相关偏见,对 8 个商业系统和 ChatGPT、GPT - 利用统计方法测量人工智能模型中的偏差及其应用于面部生物特征识别
这篇研究论文提出了用新的风险法律方法来规范人工智能的应用,重点着眼于如何检测和减少人工智能中的偏差,并提出了一种基于 N-Sigma 统计学方法的新方法来测量机器学习模型的偏差,以及如何将其应用于开发新的风险评估框架,还探讨了该方法与其他流 - Bipol: 一种新型的 NLP 多轴偏见评估指标和可解释性
引入了 bipol,这是一种具有可解释性的新度量,用于评估文本数据中的社会偏见。通过评估两个受敏感术语频率和模型分类影响的过程,我们使用 SotA 架构创建了新模型来检测多个方面的偏见,并评估了两个流行的 NLP 数据集 (COPA 和 S - AAAI如果你建造他们将会来”: 自动识别新闻利益相关者以检测新闻报道中的政党偏好
通过利用上下文信息和外部知识辅助定位新闻文章中的特定利益相关者,同时应用了序列增量聚类算法进行实体聚类,本文解决了从新闻报道中提取利益相关者的一系列难题,并检测出其中的固有偏见。实验结果表明,该模型可推广至其他新闻主题。
- ICML无监督检测上下文嵌入偏差及其对意识形态的应用
我们提出了一种完全无监督的方法来检测上下文嵌入中的偏差。该方法利用社交网络中隐含的同质性信息,并结合正交性正则化、结构稀疏学习和图神经网络来发现捕捉这些信息的嵌入子空间。在具体的例子中,我们关注意识形态偏差现象:我们引入了意识形态子空间的概 - 自然语言处理中不良偏见:避免度量危机
本文综述了自然语言处理技术的快速发展所带来的问题,尤其是如何检测这些技术中的偏见。作者讨论了适用于评估和改进这些偏见测量方法的心理测量学概念,并认为采用心理测量学词汇和方法可以使 NLP 偏见研究更有效和透明。
- 关注偏差:针对上下文语言模型的偏差检测方法的关键回顾
本文为了解决公开领域语言模型中偏见检测的问题,就语境化语言模型偏见检测方法和静态单词嵌入偏见检测方法进行了严谨的分析和比较,发现了实现上的一些决策或错误对检测结果可能产生显著的影响,并提出了未来偏见检测方法更好、更健壮、更一致的方向。
- 解释的力量:走向自动去偏见的仇恨言论检测
本研究提出了一种自动的误用检测器,该检测器依赖于解释方法来检测潜在的偏见,并基于此构建了端到端的去偏扭框架,适用于文本分类器而无需任何外部资源。
- ACL面向自然语言处理模型公平性的解释性方法应用挑战
本文简要回顾自然语言处理领域中解释性和公平性的研究趋势,识别出目前通过解释性方法来检测和减轻偏见的实践,调查 XAI 方法在解决公平问题方面广泛应用的障碍。
- 使用多目标优化探索反事实解释中的可信度、变化强度和对抗能力之间的权衡
使用多目标优化模型,通过生成逆因模型生成可信的对抗实例,以提高深度学习模型的透明度,检测偏见和数据不当的形式。
- 使用提示识别和测量预训练语言模型中令牌级情感偏见
本文提出了两种基于 prompt tuning 的情感分析测试方法:情感联想测验(SAT)和情感转移测试(SST),用以检测 PLMs 中的潜在偏差,并表明 fine-tuning 可能会增加 PLMs 中现有的偏见。
- AAAI面部分析中的偏差解剖
本文提出了用于面部分析的偏差检测 / 估计和减轻算法,并对已提出的偏差检测算法进行了系统综述。其主要贡献是对现有的偏差缓解算法进行了分类和广泛的概述。我们还讨论了偏差面部分析领域中的开放挑战。
- AAAIIFBiD: 推理无关的偏差检测
利用卷积神经网络的权重分析来检测模型的偏差,本文在使用有色 MNIST 数据库的玩具例子和使用最先进的方法和实验资源进行性别识别的现实案例研究中,发现无需对特定输入进行模型推理,查看权重即可判断模型是否存在偏差。在 MNIST 模型中,我们