- 上下文是否有助于缓解神经机器翻译中的性别偏见?
神经机器翻译模型在其训练数据分布中往往会延续性别偏见。本文通过详细分析英语到德语的刻板职业翻译以及巴斯克语到西班牙语的非信息上下文翻译,检验了上下文感知模型对减轻此类偏见的作用。研究结果表明,虽然上下文感知模型可以显著增强女性术语的翻译准确 - 测量和减轻具有多个受保护属性的表格数据中的偏差
提出了新的歧视衡量方法,并介绍了一种新的偏见减轻方法,实验证明了这种策略可以减少多个保护属性的数据集中的歧视。
- DeCoDEx: 用于改进基于扩散的反事实解释的混淆因素检测引导
通过使用 DeCoDEx 框架,将外部预训练的二元人工物体探测器引入到扩散式反事实图像生成器中,成功地解决了在存在主导性和多样性人工物体的情况下准确解释性的偏见缓解策略的问题。
- 以人为本的联邦学习中的公平性无需人口统计
通过降低训练过程中的 Hessian 矩阵的最大特征值,我们介绍了一种新颖的偏差缓解方法,从而在确保联邦学习参与者之间存在公平的损失景观的基础上实现了无需敏感属性信息的公平。此方法还通过基于错误率和损失景观曲率属性来促进参与模型的聚合,从而 - 大型语言模型中的模式感知思维链激励
链式思维提示可以引导语言模型进行复杂的多步推理。我们提出了一种考虑演示模式多样性的提示方法,通过在中间步骤中结合步长和推理过程等模式,有效地缓解由演示引起的偏差问题并实现对不同场景的更好泛化。我们在两个开源 LLM 模型上进行了九个推理基准 - 利用对抗样本进行偏见缓解和准确性增强
利用对抗生成和微调的新方法来减轻计算机视觉模型中的偏见,通过使用欺骗深度神经网络但不欺骗人类的对抗图像作为反事实进行公正模型训练,通过 qualitatively 和 quantitatively 的评估证明了相比于现有方法,我们的方法实现 - 提升机器学习模型的公平性与性能:一种采用蒙特卡洛辍学和帕累托优化的多任务学习方法
本文考虑了机器学习中可推广的偏见缓解技术的需求,由于对公平性和歧视的担忧,这些技术在数据驱动的决策过程中得到了各个行业的应用。尽管许多现有的机器学习偏见缓解方法在特定情况下取得了成功,但它们常常缺乏可推广性,不能轻松地应用于不同的数据类型或 - 信息提取是否存在一种适用于所有模型的方法?重新审视任务定义偏见
信息提取中的定义偏见是一种负面现象,可能会误导模型。为了系统地调查和解决信息提取中的定义偏见,我们提出了一个多阶段框架,包括定义偏见测量、偏见感知微调和任务特定的偏见缓解。实验证明了我们框架在解决定义偏见方面的有效性。
- 公平医学图像分类的通用无偏编辑
在 AI 领域中,我们提出了一种名为 UDE 的 U (niversal) D (ebiased) E (diting) 策略,其通过生成 UDE 噪声来掩盖医学图像中的虚假相关性,解决了使用 FM API 时医学图像偏见的挑战,并展示了该 - 用于信任机器学习的公平可解释建模(FAIM)在医疗保健领域
我们提出了一个可解释的框架 - 公平感知可解释建模(FAIM),以提高模型的公平性,同时保持性能,通过交互界面从一组高性能模型中识别出一个 “更公平” 的模型,并推动数据驱动证据和临床经验的整合,以增强情境公平性。我们通过使用两个真实世界数 - 利用弱监督学习方法消除机器学习模型中的偏见
我们提出了针对连续敏感变量的偏见缓解策略,该策略基于经济计量学领域的内生性概念,并采用弱监督学习方法,对一小部分可进行公平测量的数据进行处理。结果表明我们的方法对实际应用的效果非常接近。
- COBIAS:偏见评估中的情境可靠性
大型语言模型 (LLMs) 的研究及应用中存在偏见问题,本论文提出了一种基于上下文的偏见指标和评估分数 (COBIAS) 来测量偏见的可靠性,并且通过创建可靠的数据集来改善偏见减轻工作。
- 内容条件去偏差以实现公平的文本嵌入
在自然语言处理领域,解决机器学习模型中的偏见问题日益受到关注。本文提出了一种学习公平文本嵌入的新方法,通过确保在内容条件下敏感属性与文本嵌入之间的条件独立性,同时实现公平性并保持效用平衡。通过使用大型语言模型将文本扩充为不同敏感组,解决了缺 - LLMs 中性别偏见的揭示与减轻
大语言模型可以生成具有偏见的回答。然而,先前的直接探测技术包含性别提及或预定义的性别刻板印象,这些很难全面收集。因此,我们提出了一种基于条件生成的间接探测框架,旨在诱使大语言模型揭示其性别偏见,即使没有显式的性别或刻板印象提及。我们探索了三 - 应对医疗语言模型中的认知偏差
这项研究开发了 BiasMedQA 作为一种新的基准测试方法,评估大型语言模型在医学任务中受认知偏差影响的程度,并发现 GPT-4 对偏差具有较强的韧性,而 Llama 2 70B-chat 和 PMC Llama 13B 则受偏差影响较大 - 用反事实表示解释文本分类器
通过在文本表示空间进行干预的简单方法生成对抗事实,以用于分类器解释和偏见缓解。
- 使用门控适配器进行有效的可控偏差缓解的分类和检索
这篇论文介绍了一种名为 Controllable Gate Adapter(ConGater)的新型模块化门控机制,其具有可调节的灵敏度参数,可以在推理时从有偏态的模型逐渐过渡到完全去偏态的版本,该机制可以在实践中调节偏倚减少的程度以实现性 - 通过对比学习提升自动胸部 X 射线诊断的公平性
应用监督对比学习可以减轻胸部 X 射线诊断中的偏见,解决深度学习诊断方法中的公平性和可靠性问题。
- 分析和减轻弱势群体偏见:迈向数据集的平衡代表性
通过对脆弱道路用户的分类不平衡、性能评估和偏见影响评估进行研究,我们提出了一种模型优化和偏见缓解的方法,包括数据增强、重采样和度量特定学习,以改善自动驾驶中感知系统的准确性和公正性。
- 快速与公平:机器学习中公平性的高效二阶鲁棒优化
通过对抗训练技术来开发更公平的深度神经网络 (DNNs) 以减轻已知存在的固有偏见。我们提出了一个强大的优化问题,并证明这可以改进多个数据集的公平性,包括合成数据和真实世界数据,使用一个仿射线性模型。通过利用二阶信息,我们能够比纯一阶方法更