bias mitigation | BriefGPT - AI 论文速递

关键词bias mitigation

搜索结果 - 106

BiasAlert：一种用于 LLM 社交偏见检测的即插即用工具
在测评大型语言模型（LLMs）中，评估偏见变得越来越关键，然而现有的评估方法依赖于固定的输出形式，无法适应 LLMs 的灵活的开放文本生成场景（如句子完成和问题回答）。为了解决这个问题，我们介绍了 BiasAlert，这是一个即插即用的工具
PDF13 days ago
多语言大型语言模型是否减轻刻板印象偏见？
多语种 LLM 在减少偏见和提高预测准确性方面的有效性得到了验证。
PDF19 days ago
NeuFair：使用 Dropout 修复神经网络的公平性
通过神经放弃方法来进行深度神经网络（DNN）的后期处理偏见缓解是本文的研究重点。我们提出了 NeuFair，这是一族用于缓解预训练 DNN 中的不公平性的后处理随机算法。我们的结果显示，NeuFair 提高了公平性达 69%，并超过了最先进
PDF22 days ago
MM生成区别：生成人工智能出现偏见时会发生什么以及可以采取的措施
人工智能的生成技术在各个领域得到广泛应用，然而它们也可能加剧歧视问题。本章研究了生成人工智能与非歧视法律的重叠，指出了存在的问题并提出了改进措施。研究重点关注两种主要的歧视性输出：侮辱性和辱骂性内容以及受保护群体不足的隐含偏见，尽管在个别案
PDFa month ago
上下文是否有助于缓解神经机器翻译中的性别偏见？
神经机器翻译模型在其训练数据分布中往往会延续性别偏见。本文通过详细分析英语到德语的刻板职业翻译以及巴斯克语到西班牙语的非信息上下文翻译，检验了上下文感知模型对减轻此类偏见的作用。研究结果表明，虽然上下文感知模型可以显著增强女性术语的翻译准确
PDFa month ago
测量和减轻具有多个受保护属性的表格数据中的偏差
提出了新的歧视衡量方法，并介绍了一种新的偏见减轻方法，实验证明了这种策略可以减少多个保护属性的数据集中的歧视。
PDF2 months ago
DeCoDEx: 用于改进基于扩散的反事实解释的混淆因素检测引导
通过使用 DeCoDEx 框架，将外部预训练的二元人工物体探测器引入到扩散式反事实图像生成器中，成功地解决了在存在主导性和多样性人工物体的情况下准确解释性的偏见缓解策略的问题。
PDF2 months ago
以人为本的联邦学习中的公平性无需人口统计
通过降低训练过程中的 Hessian 矩阵的最大特征值，我们介绍了一种新颖的偏差缓解方法，从而在确保联邦学习参与者之间存在公平的损失景观的基础上实现了无需敏感属性信息的公平。此方法还通过基于错误率和损失景观曲率属性来促进参与模型的聚合，从而
PDF3 months ago
大型语言模型中的模式感知思维链激励
链式思维提示可以引导语言模型进行复杂的多步推理。我们提出了一种考虑演示模式多样性的提示方法，通过在中间步骤中结合步长和推理过程等模式，有效地缓解由演示引起的偏差问题并实现对不同场景的更好泛化。我们在两个开源 LLM 模型上进行了九个推理基准
PDF3 months ago
利用对抗样本进行偏见缓解和准确性增强
利用对抗生成和微调的新方法来减轻计算机视觉模型中的偏见，通过使用欺骗深度神经网络但不欺骗人类的对抗图像作为反事实进行公正模型训练，通过 qualitatively 和 quantitatively 的评估证明了相比于现有方法，我们的方法实现
PDF3 months ago
提升机器学习模型的公平性与性能：一种采用蒙特卡洛辍学和帕累托优化的多任务学习方法
本文考虑了机器学习中可推广的偏见缓解技术的需求，由于对公平性和歧视的担忧，这些技术在数据驱动的决策过程中得到了各个行业的应用。尽管许多现有的机器学习偏见缓解方法在特定情况下取得了成功，但它们常常缺乏可推广性，不能轻松地应用于不同的数据类型或
PDF3 months ago
信息提取是否存在一种适用于所有模型的方法？重新审视任务定义偏见
信息提取中的定义偏见是一种负面现象，可能会误导模型。为了系统地调查和解决信息提取中的定义偏见，我们提出了一个多阶段框架，包括定义偏见测量、偏见感知微调和任务特定的偏见缓解。实验证明了我们框架在解决定义偏见方面的有效性。
PDF4 months ago
公平医学图像分类的通用无偏编辑
在 AI 领域中，我们提出了一种名为 UDE 的 U (niversal) D (ebiased) E (diting) 策略，其通过生成 UDE 噪声来掩盖医学图像中的虚假相关性，解决了使用 FM API 时医学图像偏见的挑战，并展示了该
PDF5 months ago
用于信任机器学习的公平可解释建模（FAIM）在医疗保健领域
我们提出了一个可解释的框架 - 公平感知可解释建模（FAIM），以提高模型的公平性，同时保持性能，通过交互界面从一组高性能模型中识别出一个 “更公平” 的模型，并推动数据驱动证据和临床经验的整合，以增强情境公平性。我们通过使用两个真实世界数
PDF5 months ago
利用弱监督学习方法消除机器学习模型中的偏见
我们提出了针对连续敏感变量的偏见缓解策略，该策略基于经济计量学领域的内生性概念，并采用弱监督学习方法，对一小部分可进行公平测量的数据进行处理。结果表明我们的方法对实际应用的效果非常接近。
PDF5 months ago
COBIAS：偏见评估中的情境可靠性
大型语言模型 (LLMs) 的研究及应用中存在偏见问题，本论文提出了一种基于上下文的偏见指标和评估分数 (COBIAS) 来测量偏见的可靠性，并且通过创建可靠的数据集来改善偏见减轻工作。
PDF5 months ago
内容条件去偏差以实现公平的文本嵌入
在自然语言处理领域，解决机器学习模型中的偏见问题日益受到关注。本文提出了一种学习公平文本嵌入的新方法，通过确保在内容条件下敏感属性与文本嵌入之间的条件独立性，同时实现公平性并保持效用平衡。通过使用大型语言模型将文本扩充为不同敏感组，解决了缺
PDF5 months ago
LLMs 中性别偏见的揭示与减轻
大语言模型可以生成具有偏见的回答。然而，先前的直接探测技术包含性别提及或预定义的性别刻板印象，这些很难全面收集。因此，我们提出了一种基于条件生成的间接探测框架，旨在诱使大语言模型揭示其性别偏见，即使没有显式的性别或刻板印象提及。我们探索了三
PDF5 months ago
应对医疗语言模型中的认知偏差
这项研究开发了 BiasMedQA 作为一种新的基准测试方法，评估大型语言模型在医学任务中受认知偏差影响的程度，并发现 GPT-4 对偏差具有较强的韧性，而 Llama 2 70B-chat 和 PMC Llama 13B 则受偏差影响较大
PDF5 months ago
用反事实表示解释文本分类器
通过在文本表示空间进行干预的简单方法生成对抗事实，以用于分类器解释和偏见缓解。
PDF6 months ago