大语言模型的选择碰撞器偏差
本文探究了大型语言模型在数据选择偏见下如何学习原本条件独立的变量之间的统计依赖关系。为了验证这个效果,我们创建了一个遮掩性别任务,可以应用于 BERT 系列模型来揭示预测性别代词与一系列似乎与性别无关的变量(如日期和位置)之间的虚假相关性,我们展示了预训练(未经修改的)BERT 和 RoBERTa 大型模型的效果,最后,我们提供了一项在线演示,邀请读者进一步实验。
Jul, 2022
本文针对任务欠规范化问题,采用因果术语,并开发了一种在未修改大型语言模型时,对性别和性别中性实体之间的杂波关联进行经验测量的方法,检测了以前未报告的杂波相关性。然后,我们描述了一种轻量级方法,利用由此产生的错误关联进行预测任务的不确定性分类,在 Winogender Schemas 挑战集上实现了超过 90%的准确性。最后,我们推广了我们的方法,以处理更广泛的预测任务,并为此处描述的每种方法提供开源演示。
Sep, 2022
大型语言模型(LLMs)(如 gpt-3.5-turbo 和 claude-instant-1.2)在解释和执行基于语义的任务方面发挥了重要作用。然而,这些模型天生存在的偏见,类似于人类的认知偏见,对它们的性能产生了负面影响。本研究关键地审查了这些偏见并量化了其对代表性列表选择任务的影响。通过进行一系列控制实验,控制温度、列表长度、对象身份、对象类型、提示复杂度和模型,从而使我们能够分离和测量偏见对选择行为的影响。我们的发现表明,偏见结构与模型强相关,对象类型调节了效应的幅度。存在较为显著的首位效应,使列表中的首个对象在输出中被过度代表。此外,当在选择任务中与守卫栏结合使用时,保证回答结构的提示工程方法可能会增加偏见并降低指令遵循性。当分离守卫栏步骤与列表抽样步骤时,偏见被消除,降低了每个个体任务的复杂性。本研究的意义是双重的,实践上提供了设计无偏 LLMs 应用的指南,理论上暗示了 LLMs 体验到了一种通过增加偏见来补偿的认知负荷。
Jan, 2024
通过探索新的方法来检测大型语言模型中的潜在偏见,本研究聚焦于不确定性量化和可解释人工智能方法,旨在提高模型决策的透明性,以识别和理解不明显的偏见,从而为更加公平和透明的人工智能系统的发展做出贡献。
Apr, 2024
大型语言模型(LLMs)中存在的性别偏见令人担忧,但提出了一种无需访问模型参数的新方法,即通过手动设计的文本前言和职业描述句来有效抑制性别偏见,并且对下游任务性能影响最小。
Sep, 2023
我们在这篇论文中研究了大型语言模型(LLMs)中的 “选择偏差” 现象,专注于模型在从有序序列中选择最佳选项的问题。我们深入探讨了与选项顺序和标记使用相关的偏差,这些偏差显著影响了 LLMs 的决策过程。通过多个模型和任务的广泛实证分析,我们还对这些偏差的影响进行了量化。此外,我们提出了缓解策略以增强模型性能。我们的主要贡献有三个方面:1)精确量化了选项顺序和标记对 LLMs 的影响;2)开发了缓解标记和顺序敏感性以增强鲁棒性的策略;3)详细分析了不同模型和任务的敏感性,为选择问题的更稳定可靠的 LLMs 应用程序的创建提供了指导。
Jun, 2024
大型语言模型中的社会偏见评估和缓解技术的综述,介绍了社会偏见与公平的概念、评估指标和数据集,以及介绍了干预方法的分类和研究趋势,帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。
Sep, 2023
该研究探讨了大型语言模型(LLMs)中的上下文偏置,其中在二次通过重新评分期间,提供了额外的上下文信息以提升自动语音识别(ASR)性能。研究提议在重新评分期间利用提示方式对 LLM 进行偏置,其中包括偏置列表和少量示例,以作为计算假设得分时的额外信息。除了少量示例学习,该研究还提出了 LLM 的多任务训练,以预测实体类别和下一个标记。为了改进上下文偏置的效率并避免超过 LLM 的最大序列长度,该研究提出了动态提示,其中利用类别标签预测选择最可能的类别,并仅将该类别中的实体用作下一个标记预测的上下文。在内部通话、消息和听写数据集以及 SLUE-Voxpopuli 数据集上进行了字错误率(WER)评估。结果表明,偏置列表和少量示例相对于第一次通过 ASR 可以分别实现 17.8% 和 9.6% 的改善,而多任务训练和动态提示则可以分别实现 20.0% 和 11.3% 的相对 WER 改善。
Sep, 2023
大型语言模型广泛用于自然语言生成任务的自动评估指标,然而,由于句子中的表面差异(如词序和句子结构),可能会导致语言模型的可能性有所偏差,本文研究了基于语言模型的评估器中可能存在的可能性偏见,并提出了缓解可能性偏见的方法,该方法利用高度偏倚的实例作为少样本示例进行上下文学习,实验证明我们测试的几个语言模型存在可能性偏见,而且我们提出的方法成功地缓解了这种偏见,并显著提高了评估性能(与人类评分的相关性)。
Feb, 2024