- ACL孟加拉语的背景长度变化特征的实证研究
预训练语言模型存在各种社会偏见,本研究旨在对孟加拉语进行内在偏见测量,探讨现有偏见测量方法在孟加拉语中的必要改进,并研究上下文长度变化对偏见测量的影响,通过实验证明偏见度量指标对于上下文长度存在明显依赖性,在孟加拉语偏见分析中需要细致考虑。 - 全球好,本地不好?:了解 LLM 中的品牌偏见
使用精选数据集对 LLMs 在品牌偏见的现象进行了研究,发现在全球品牌的正面属性关联和高收入国家个体的奢侈礼物推荐方面,LLMs 存在偏见表现,并受到原产地效应的影响。
- 评估社交媒体数据和屏蔽语言模型中短期时间波动的社交偏见
分析表明,尽管社会偏见存在于所有 MLMs 中,但大多数类型的社会偏见在时间上相对稳定(有几个例外)。进一步分析影响 MLMs 社会偏见的机制,我们发现在训练语料库中,某些人口群体(如男性)一直相对于其他人口群体(如女性)更受偏好。
- 通过遗忘减缓语言模型中的社会偏见
通过研究两种取消学习方法,本文在减少社会偏见时通过定量和定性分析实证表明,基于任务向量的否定方法在保持性能和困惑度较低的情况下优于分区对比梯度取消学习方法。在 LLaMA-27B 上,通过任务向量的否定方法将偏见分数降低了 11.8%。
- 恶魔在神经元中:解释和减轻预训练语言模型中的社会偏见
该论文提出了 "社会偏见神经元" 的概念,并介绍了一种能够精确定位和抑制与社会偏见相关的单元的方法,从而降低预训练语言模型中的社会偏见。该方法通过使用情感提示词激发与特定情感相关的敏感词和人口统计数据,通过测量其产生的偏差来定位并抑制造成不 - 评估计算机视觉模型的社会技术视角:基于性别和情绪检测与推理的案例研究
在计算机视觉技术的不断发展中,图像中性别和情绪的自动检测和解释是一个重要的研究领域。本文调查了计算机视觉模型中的社会偏见,并强调传统评估指标如精确度、召回率和准确率的局限性。我们的研究提出了一个社会技术框架,用于评估计算机视觉模型,同时结合 - 失败是命中注定的,但可以淡化:关于大规模视觉语言模型中的不良行为的特征化和缓解
通过使用深度强化学习方法,本研究通过有限的人类反馈探索和构建预训练的辨别模型和生成模型的失败模式,并展示了如何重构这些失败模式以更好地满足需求,从而解决大规模深度神经网络在准确性、社会偏见和与人类价值观的一致性等方面可能出现的问题。
- 日本大型语言模型中社会偏见分析
通过构建基于英文偏见基准 BBQ 的日语偏见基准数据集 JBBQ,并分析日本 LLM 的社会偏见,本研究发现,虽然当前的日本 LLM 通过指导调整提高了在 JBBQ 上的准确性,但其偏见程度却增加了。此外,通过在提示中加入关于社会偏见的警告 - 用反事实推理发现大规模视觉 - 语言模型中的偏见
通过对现有的大规模视觉 - 语言模型进行大规模研究,我们发现社会属性,如种族、性别和形象特征,可以显著影响生成的有害内容、能力相关词汇、有害刻板印象和被描述个体的评分,同时也探讨了大规模视觉 - 语言模型和对应的语言模型之间的社会偏见关系和 - ACLGPT 不是一个标注器:在公平性基准构建中人工标注的必要性
通过对社区调查的回应,探讨 GPT-3.5-Turbo 是否能够促进社会偏见标准数据集的开发任务,研究发现 GPT-3.5-Turbo 在此注释任务中表现不佳,产生了无法接受的质量问题,因此推断 GPT-3.5-Turbo 不适合在涉及社会 - 白人男性主导,黑人女性协助:揭示语言代理中的性别、种族和交叉偏见
通过语言表达的机构性来研究社会偏见,探究人类编写文本和大型语言模型(LLM)生成文本中的社会偏见,并通过验证数据集和分类器揭示不同领域的语言机构性偏见。研究结果表明,在性别、种族和交叉身份方面,人类编写的文本中存在与现实社会观察一致的语言机 - CVPR深度生成模型是否会放大未来模型中的偏见?
通过研究深度生成模型对未来计算机视觉模型中潜在社会偏见的影响,本文探讨了如果使用生成的图像作为训练数据,是否会导致偏见放大,从而造成有害内容的传播。然而,与预期相反的是,我们的研究结果显示,在特定任务中出现偏见缓解的情况,这可能与图像生成中 - 揭示大规模视觉语言模型中的偏见
通过对不同的大型视觉 - 语言模型(LVLMs)生成的文本进行大规模研究,我们发现输入图像中所描绘的社会属性(如种族、性别和外貌特征),能够显著地影响生成文本的毒性和与能力相关的词汇。
- IndiBias: 用于测量印度语境下语言模型社会偏见的基准数据集
IndiBias 是一个专门为评估印度社会偏见而设计的全面基准数据集,它将现有的 CrowS-Pairs 数据集过滤和翻译成印地语,并利用 ChatGPT 和 InstructGPT 等大型语言模型增加了印度独特的社会偏见和刻板印象维度,同 - 基于多任务指令调优与 RLAIF 的意图条件和无毒抗辩生成
CoARL 是一种新颖的框架,通过模拟憎恨言论中社会偏见的语用含义,增强了对抗性言论生成,优于现有基准,得到了广泛的人工评估支持。
- 利用原型表示消除社会偏见而不包含人口统计信息
DAFair 是一种用于减轻语言模型中社会偏见的新方法,通过预定义的典型人口统计文本,并在微调过程中加入正则化项来纠正模型的表示中的偏见,从而在两个任务和两个模型上实证结果显示了我们方法的有效性。此外,即使在有限的人口统计注释数据下,我们的 - 通过预测质量的代理方法测量掩盖语言模型中的社会偏见
通过使用迭代的蒙板实验测量变压器模型的预测质量,并评估多层语言模型对于劣势群体和优势群体的偏好,我们比较了两个基准数据集上的偏见估计结果,并发现在考虑的多层语言模型中具有相对较高的宗教和残疾偏见,而在一个数据集中相对较低的性别偏见。我们的测 - 自去偏大型语言模型:零样本识别和降低刻板印象
本文介绍了一种零样本自我去偏见技术,通过解释和重提出两种方法,利用大型语言模型来降低刻板印象。我们展示了自我去偏见技术能够在不需要修改训练数据、模型参数或解码策略的情况下,减少九个不同社会群体的刻板印象程度,其中解释能够正确识别无效假设,重 - 机器语言模型中对齐和有用性之间的权衡
语言模型对齐是 AI 安全的重要组成部分,通过增强期望行为和抑制非期望行为,使人类和语言模型之间进行安全交互。在这篇论文中,我们研究了对齐增加和模型有用性减少之间的权衡,并提出了一个理论框架,以在实证上证明其相关性。我们发现,当表示工程向量 - 基于余弦的词向量偏倚分数的语义属性
在这项工作中,我们通过基于几何定义的偏见,提出了对偏见得分的要求,以便被认为是衡量偏见的有意义的方法,并通过对文献中的余弦偏见得分进行形式分析,加以强调,并通过实验证明偏见得分的局限性对应用案例产生影响。