- 大型语言模型是否具有变色龙特性?
大型语言模型(LLMs)是否具有其自己的世界观和个性倾向?对 LLM 模型回答主观问题的模拟进行了 100 多万次,将其回答与欧洲社会调查(ESS)的真实数据进行比较,结果表明问题引导对偏见和变异的影响是基本的,突出了主要的文化、年龄和性别 - 计算具有马尔可夫噪声的恒定步长随机逼近的偏差
研究马尔可夫噪声和常数步长的随机逼近算法,通过基于无穷小生成器比较的方法,研究算法的偏差以及时间平均偏差,证明其分别为 O (α) 和 αV + O (α^2),并且 Polyak-Ruppert 平均值收敛概率高于 θ* + αV。此外, - MBIAS: 大型语言模型中减轻偏见并保留上下文
为了保证 Large Language Models(LLMs)的安全性,同时保持其上下文准确性,提出了 MBIAS 框架,通过在自定义数据集上进行指令微调,优化 LLMs 生成中的偏见和毒性问题,实验结果表明,MBIAS 能够在保持关键信 - 大型语言模型中毒性的实际评估
该研究介绍了新的 “全面优化毒性”(TET)数据集,由手工设计的提示构成,旨在抵消这些模型的保护层,通过广泛的评估,证明了 TET 在评估几种流行的 LLMs 中毒性意识方面的重要作用,凸显了正常提示下可能隐藏的 LLMs 中的毒性,从而揭 - 仇恨传播数据集的系统综述中的未被察觉的目标
机器学习(ML)基于内容审查工具对保持在线空间的免受仇恨性沟通至关重要。然而,ML 工具的能力仅取决于其所训练的数据的质量。虽然越来越多的证据表明它们在检测针对特定身份的仇恨性沟通方面表现不佳,并可能对其进行歧视,但我们对此类偏见的来源了解 - 谁在内部谁在外部?DataComp 中多模态 CLIP 过滤的案例研究
我们的研究发现,数据过滤方法在图像和文本领域也存在偏见和价值观,并且与一些边缘群体相关的数据更容易被排除。此外,我们还发现现有的数据过滤方法可能加剧数据收集中存在的不平衡问题,并且有必要对数据集的创建和过滤做出根本性的改变。
- 传统多语种情感分析模型中法英语言偏见分析
通过 SVM 和 Naive Bayes 模型,该研究在统计加拿大关于 “双语自然语言处理中的偏见考虑” 的报告的启发下,探讨了英法多语情感分析中可能存在的偏见问题。通过使用三个平衡数据集进行实验,发现情感分类存在潜在的多语言偏见。实验结果 - 了解大型语言模型在文化常识方面的能力和局限性
通过对多个最先进的大型语言模型的文化常识任务的能力和限制进行全面检验,我们发现大型语言模型在文化特定的常识知识上的表现存在显著差异,其通用常识能力受到文化环境的影响,并且提出查询大型语言模型所使用的语言会影响其在与文化相关的任务上的表现,我 - 通过重加权和调整实现个体公平性
通过在德国信贷批准数据集上的实验证明,将图拉普拉斯正则化程序用于算法公平性技术可以提高个人公平性并降低偏差,同时揭示了 Prediction Consistency 评分可能会误导的问题。
- 大型语言模型的评估存在不一致和偏见
本研究通过使用 SummEval 数据集进行一系列分析,证实了大型语言模型作为评估器在以下方面存在偏见和不一致性:(1)体现对低困惑度文本的偏好;(2)显示具有偏见的评分分布;(3)经历多属性判断时的锚定效应。此外,我们分享了配置大型语言模 - 消除偏见的偏见决策模型比较:基于抵押贷款申请数据的方法对比
通过对房屋贷款申请决策的真实数据添加反事实(模拟)种族偏见,本文展示了即使没有将族裔作为预测变量,机器学习模型(XGBoost)仍然会重复这种偏见。接下来比较了几种去偏方法:禁止变量的平均值、在禁止变量中选择最优预测(一种新方法)以及同时最 - KDDFALE: 公平感知的 ALE 图用于审计亚群的偏见
在机器学习系统中,公平性逐渐成为一个关键要求。本文着重于研究子群体公平性以及如何通过可解释性方法识别潜在偏见,并以用户友好的方式可视化结果,提出了 FALE 方法(公平感知累积局部效果图),作为识别潜在偏见问题的高效、用户友好、易理解和可靠 - 利用公平速度递归改进神经网络的公平性
通过在训练阶段解决内在偏差,FairVIC 方法提高神经网络的公平性,不依赖于保护性特征进行预测,从而在不牺牲模型准确性的情况下显著提升公平度。
- 通过系统 1 和系统 2 的认知过程降低 LLMs 中的社会偏差的提示技术
通过比较零样本激励、思维链激励和基于双过程理论的多种激励策略在两个偏见数据集上的效果,研究发现人物角色、系统 2 和思维链激励都倾向于减少语言模型中的社会偏见,但最佳特征组合取决于具体模型和偏见类别,从而使语言模型的刻板判断率降低了最多 1 - 自动生成测试内容中的公平性问题识别
旨在探讨自然语言生成中的公平问题,特别关注自动生成的测试内容对测试结果的影响,构建数据集并使用多种分类方法进行实验,发现自我纠正和少样本学习相结合的方法在公平性上有最佳表现。
- ACLDAIC-WOZ:论临床访谈中使用治疗师提示进行自动抑郁检测的有效性
通过消融实验证明,在自动检测抑郁症方面,使用访谈者的提示可能会导致模型学习到特定区域的信息,从而通过简化的方式检测出抑郁症患者,这强调了在模型中使用访谈者提示时需谨慎的必要性。
- CVPR公平 SSD: 认知合成语音检测器中的偏见
现有的合成语音检测器存在性别、年龄和口音偏见,需要进一步研究以确保公正性。
- 自由放任的危害:生成式语言模型中的算法偏差
通过开放式提示,我们发现模型产生的文本在描绘边缘群体的身份时存在错误、隐含和刻板印象的问题,这些问题可能导致心理伤害和认知能力下降。
- 多语言遮蔽语言模型中的性别偏见评估
通过多种评估指标,提出了一种多语言方法来估计基于 Transformer 的遮掩语言模型中的性别偏见。同时,通过与传统的基于词典的方法相比,提出了一种基于模型的方法,以更全面和稳健地分析性别偏见。
- Bipol 下的数据偏差:男性天生右派,女性的角色是跟随他们的领导
我们介绍了关于三种语言中偏见的新的大型标记数据集,并通过实验证明了在评估的 5 种语言中的 10 个数据集中都存在偏见,包括英语 GLUE/SuperGLUE 排行榜上的基准数据集。 我们使用 SotA 多语言预训练模型 mT5 和 mBE