- 评估大型视觉语言模型在多样性人口属性和提示上的公平性
对大规模视觉 - 语言模型进行可视化公正性实证调查,揭示出现开源和闭源模型在不同指引和人口属性下存在普遍的公正性问题。
- 用于加利西亚语的开放式生成大型语言模型
这篇文章介绍了针对加利西亚语的两个生成式大型语言模型,通过减少数据限制以及使用人工评估和任务数据集的方法,这些模型展现出良好的性能,强调了在生成式模型中语言多样性的重要性。
- 消除偏见:利用切片发现方法解释医学图像分析性能差距
使用 Slice Discovery Methods (SDMs) 鉴别机器学习模型中的性能差异及其与患者群体之间的相互作用,并提出性别差异导致观察到的分类性能差距的解释。
- 北欧嵌入基准:多语言和单语文本嵌入的全面评估
通过引入 Scandinavian Embedding Benchmark (SEB),该研究评估了 26 多个模型,揭示了公共和商业解决方案之间的显著性能差异,从而填补了评估斯堪的纳维亚语言文本嵌入的空白。
- ACL通过教师语言选择和跨语言自蒸馏减轻 mPLMs 中的语言性能差异
ALSACE 使用学到的知识从表现优秀的语言中指导同一多语言预训练语言模型内表现较差的语言,有效地减少了语言级别的性能差异,同时在不同的多语言自然语言理解任务中展现了竞争力。
- 重新评估语言模型中的偏倚检测:隐含规范的作用
大型语言模型的偏见在量化偏见时可能会导致模板式偏见探测的误导性影响。
- 利用 CLIP 进行敏感信息推断和模型公平性改进
通过使用 CLIP 模型作为丰富的知识源来推断敏感信息,我们在图像和语言嵌入派生的相似度上进行样本聚类,并评估其与真实属性分布的一致性,然后通过重新采样和增强性能较差的聚类来训练目标模型,实验结果表明,该模型在多个基准偏见数据集上取得了明显 - 等级工具:社会等级与自然语言处理性能的相关性
我们通过对电影中的 95K 个话语进行社会阶级、种族和地理语言差异的语料库注释,并对语言建模、自动语音识别和语法错误纠正三个任务中 NLP 系统的性能进行了实证研究,发现与社会经济地位、种族和地理差异有关的显著性能差异。随着 NLP 技术的 - 是否合并:对共享模型中群体公平训练的正则化效果分析
公平机器学习中,性能差异的一个原因是对训练样本较少的群体过拟合。本文推导了福利为中心的公平机器学习的群体特定的泛化误差界,从而得益于多数群体较大的样本量。通过考虑一个受限假设类中的群体特定的 Rademacher 平均,该假设类包含了在公平 - CVPR在深假检测中保持公平性泛化
通过同时考虑特征、损失和优化方面,我们提出了第一个在深度假像检测中解决公平性泛化问题的方法,采用解缠学习提取人口统计和领域无关的伪造特征,并将它们融合在一起,以在交叉领域的深度假像检测中鼓励公平学习。在知名深度假像数据集上进行的广泛实验证明 - 通过条件风险值测试进行多组公平性评估
通过允许模型在性能近乎相等的群体上产生微小概率差距的方法,基于条件风险价值 (CVaR) 提出了一种检测性能差异的方法;同时证明了具有特定先验分布权重的情况下,Rényi 熵阶数为 2/3 的先验分布可以捕获所提出的 CVaR 测试算法的样 - EMNLP语义相似性分类任务中模型与评估数据集策划的界限定位
该研究展示了预训练模型和开放评估数据集的局限性对于评估二元语义相似性分类任务的性能的影响,强调了数据的收集方式的重要性,同时强调了不同数据集、嵌入技术和距离度量之间的性能差异。
- EMNLP多语言任务导向对话系统中性能差异的系统研究
多语言自然语言处理中任务导向对话系统性能差异的经验分析和洞察,以及新语言中 ToD 数据收集和系统开发的实用建议。
- FACET:计算机视觉评估基准的公平性
计算机视觉模型在性别和肤色等属性方面存在已知的性能差异。本论文提出了一个名为 FACET(计算机视觉公平性评估)的新基准,它是一个大型、公开可用的评估集,包括 32,000 张图片,用于图像分类、目标检测和分割等常见视觉任务。我们通过对 F - 解锁差分隐私图像分类的准确度与公平性
预训练的基础模型经差分隐私微调可在下游任务中实现接近非隐私分类器的准确性,并且在四个数据集中实现与非隐私技术的准确性相差不多,包括两个医学成像基准数据集。此外,我们的隐私医学分类器在不同人口群体之间没有更大的性能差异。此里程碑使得差分隐私训 - 子群分离在群体公平医学图像分类中的作用
我们研究深度分类器中的性能差异。我们发现分类器将个体分为子群的能力在医学成像模态和保护特性之间存在显著差异;关键是,我们展示了这一特性对算法偏见具有预测作用。通过理论分析和广泛的经验评估,我们发现了子群分离性、子群差异和在训练数据存在系统偏 - 非英语问题下不要信任 GPT
本文提供了一种系统方法来衡量 LLMs 在多语言环境下的表现差异,探讨了 LLMs 的跨语言概括现象,结果表明 GPT 在多语言环境下表现出高度翻译一致的行为。
- 公平性审计的统计推断
通过多重假设检验,在统计保证的前提下,使用自助法在子人群的集合中同时限制性能差异,从而识别受模型性能不足影响的子人群并验证模型在某些子人群中的适用性。此外,该方法还兼容超丰富甚至无限的子人群集合,并支持评估在某些分布变化下的性能。
- 粗略种族数据掩盖了临床风险评分表现差异
通过分析美国医疗数据,发现医学风险评分在不同粒度人种群体之间存在显著的性能差异,建议医疗和机器学习研究人员应该收集、发布和使用更精细的种族数据,以更好地认识种族间的表现差距。
- 跨方言英文自然语言处理框架:Multi-VALUE
介绍 Multi-VALUE—— 一种用于评估和实现英语方言不变性的资源套件,通过构建适用于 50 种英语方言的可控规则翻译系统,发现非标准方言上的主流模型存在显著性能差异,并以此作为数据增强技术来提高现有系统的方言稳健性,最后与 “Chi