- 通过遗忘减缓语言模型中的社会偏见
通过研究两种取消学习方法,本文在减少社会偏见时通过定量和定性分析实证表明,基于任务向量的否定方法在保持性能和困惑度较低的情况下优于分区对比梯度取消学习方法。在 LLaMA-27B 上,通过任务向量的否定方法将偏见分数降低了 11.8%。
- LIDAO: 限制干预以解决(大规模)语言模型偏见问题
大型语言模型中的公平性和流畅度之间的权衡问题研究,提出了一种基于信息论的框架 LIDAO,用于使语言模型更好地实现公平性而仍保持流畅度。
- ACL深思熟虑行动:缓解针对视觉语言任务的性别偏见的双阶段框架
该研究针对视觉语言模型中的性别偏见进行了研究,识别出对象幻觉是视觉语言模型中性别偏见的本质。为了缓解性别偏见,提出了一个名为 GAMA 的生成框架,通过生成全面但模糊性别的叙述来防止过早集中在局部图像特征上,并在回答推理阶段通过综合图像、生 - 雇佣我还是不雇佣?考察语言模型对职业属性的行为
本论文研究了大型语言模型在职业决策过程中与性别刻板印象相关的行为,通过多轮问答的方式,探究和量化了性别刻板印象在语言模型行为中的存在,并测试了三种模型的偏好。发现所有模型都存在类似于人类偏见的性别刻板印象,但偏好不同,且 GPT-3.5-t - CVPR通过研究偏差对比对的类别识别共同属性来增强内在特征进行去偏
通过为模型提供明确的空间引导,指示内在特征区域,本文提出了一种方法来增强相对未被充分利用的偏向特征,从而使模型在学习内在特征时得到指导。实验证明,我们的方法在具有不同程度偏见的合成和实际数据集上取得了最先进的性能。
- COLING新闻去偏见的对话 LLMs 的陷阱
本研究探讨新闻编辑中的去偏见化问题,并评估了对话式大型语言模型在此任务中的有效性。我们设计了一份适用于新闻编辑的评估清单,使用公开可得的媒体偏见数据集的子集获取了三种流行的对话式模型生成的文字,并按照设计的清单对这些文字进行了评估。此外,我 - MIST: 在文本 - 图像扩散模型中通过分离交叉注意力编辑来减轻交叉偏见
本文介绍了一种方法,通过以独立方式修改交叉注意力图,解决了扩散式文本到图像模型中的交叉偏见问题。实验结果表明,我们的方法在减轻各种属性上的单一和交叉偏见方面超越了现有方法,并提供了我们的源代码和去偏模型以促进生成模型的公平性和支持进一步的研 - 预训练语言模型中减轻性别偏见的投影方法
研究了将最简单的投影去偏方法应用于 BERT 内部表示时,对于缓解 BERT 在内部表示中的性别偏见和精调任务中的观察到的偏见至关重要,结果发现投影方法在内部偏差和下游偏差缓解方面都有效果,但两者并不一定相关。
- ERD:一个提升 LLM 推理能力用于认知失调分类的框架
使用大语言模型(LLMs)提高心理治疗的可访问性备受关注。本文提出了 ERD,通过提取与认知失调相关的部分和多智能体辩论推理步骤的辅助模块,提高了基于 LLM 的认知失调分类性能。在公共数据集上的实验结果表明,ERD 提高了多类 F1 分数 - 驾驭 LLMs 朝向无偏响应:一个因果引导的去偏框架
使用因果理解指导设计提示机制的去偏置语言模型框架,能有效减少大型语言模型中的社会偏见。
- AAAI因果步行:使用前门调整消除多跳事实验证中的偏倚
通过引入因果路径和前门调整,Causal Walk 是一种用于从因果角度消除多跳事实验证偏差的新方法,通过随机游走的思想估计处理和中介变量之间的因果效应,并利用归一化加权几何平均逼近估计中介变量和结果变量之间的因果效应。
- AXOLOTL: 通过协助自我消除大型语言模型输出的公正性
通过 Axolotl,这一新颖的后处理框架,在不需要直接访问模型内部参数的情况下,与 LLMs 进行交互,通过类似零样本学习的三步过程识别偏见、提出解决方案并引导模型进行自我去偏差,从而降低计算成本并保持模型性能,为广泛应用和易于使用的 L - D-XCB: 基于 Transformer 的无数据依赖公平准确的网络欺凌检测
衡量和减轻基于脱节性联想的粗俗词语和事件之间偏见关联带来的偏见,我们引入了 ID-XCB,这是第一种不依赖数据的去偏技术,结合了对抗训练、偏见约束和去偏微调方法,旨在减轻模型对诱导偏见词语的关注,而不影响整体模型性能。我们在两个常见的基于会 - LLMs 的高风险决策中的认知偏差
我们介绍了 BiasBuster,这是一个旨在发现、评估和减轻大型语言模型中认知偏见的框架。通过在心理学和认知科学的前期研究基础上开发了一个包含 16,800 个提示的数据集,我们测试了各种减轻偏见的策略,并提出了一种使用大型语言模型来去偏 - ACL基于 ChatGPT 的增强数据技术用于提高参数效率的 LLM 去偏
使用 ChatGPT 生成综合训练数据提高去偏置大型语言模型的方法表明,可以在降低计算成本、数据限制和多任务语言能力降低的情况下,有效地减少大型语言模型的社会偏见,并具有跨类别的去偏置性能。
- WWW赋予预训练图模型可证明的公平性
通过冻结 PGM 的参数并训练一个参数高效的适配器,我们提出了一个名为 GraphPAR 的新颖适配器调节框架,以灵活提高 PGM 在下游任务中的公平性,同时在可证实的范围内对每个节点的公平性进行量化验证。
- ACLMAFIA: 多适配器融合式全包含语言模型
通过使用结构化知识和大型生成模型,在多个偏见维度上以半自动的方式构建多样化反事实数据扩充(CDA),我们提出了一种模块化地消除预训练语言模型中的多个偏见维度。我们强调现有的去偏见方法未考虑多个社会偏见之间的相互作用,并提出了一种在各种社会偏 - 使用门控适配器进行有效的可控偏差缓解的分类和检索
这篇论文介绍了一种名为 Controllable Gate Adapter(ConGater)的新型模块化门控机制,其具有可调节的灵敏度参数,可以在推理时从有偏态的模型逐渐过渡到完全去偏态的版本,该机制可以在实践中调节偏倚减少的程度以实现性 - AAAITD^2-Net:面向动态场景图生成的降噪和去偏方法
本文介绍了一种名为 TD$^2$-Net 的网络,旨在进行动态场景图生成时的去噪和去偏执。该网络通过设计可微分的 Top-K 对象选择器来增强对象表示,以及引入不对称重新加权损失函数来缓解标签偏差问题。在行动基因组数据库上的系统性实验结果表 - 减轻面部表情识别中的算法偏差
通过使用一个去偏变分自编码器,在偏倚数据集上进行实验以缓解偏见,本研究探讨了一种消除偏见的方法,以在面部表情识别中平等对待每个人。