在大型语言模型推理中平衡理性偏差和认知偏见:并非所有偏见均不好
我们介绍了 BiasBuster,这是一个旨在发现、评估和减轻大型语言模型中认知偏见的框架。通过在心理学和认知科学的前期研究基础上开发了一个包含 16,800 个提示的数据集,我们测试了各种减轻偏见的策略,并提出了一种使用大型语言模型来去偏置其自身提示的新方法。我们的分析提供了商业和开源模型中认知偏见存在及其影响的全面图片。我们证明了我们的自助去偏置方法能够有效减轻认知偏见,而无需为每种偏见类型手动制作示例。
Feb, 2024
这项研究引入了一种新的框架,金融偏见指标(FBI),来对大型语言模型(LLMs)的金融合理性进行评估,重点是它们辨识和应对金融信息中微妙之处的能力,以及发现可能会偏向市场分析的非理性偏见。研究采用创新方法来衡量金融合理性,整合行为金融学的原则来审视 LLMs 的偏见和决策模式,并对 19 个主要 LLMs 进行全面评估,结果显示模型之间存在不同程度的金融非理性,受到设计和训练的影响。这项研究丰富了我们对 LLMs 在金融应用中的优势和弱点的认识,为开发更可靠和理性的金融分析工具奠定了基础。
Feb, 2024
大型语言模型的偏见与认知偏差的评估:对现有模型中偏见的普遍性持谨慎乐观态度,并承认存在一些真实的偏见,并努力减少其存在。同时,讨论了人类认知偏见的理性以及非代表性数据在误导模型偏见方面的哲学含义。
Nov, 2023
大型语言模型中的社会偏见评估和缓解技术的综述,介绍了社会偏见与公平的概念、评估指标和数据集,以及介绍了干预方法的分类和研究趋势,帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。
Sep, 2023
一项研究发现,大型语言模型的非故意回应存在价值偏差,倾向于偏爱高价值选项,该偏差在不同领域的语言模型中都存在,并对相关应用场景选择起到影响。
Feb, 2024
通过评估不同方法对模型预测中的标签偏倚进行量化研究,我们提出了一种专门用于少样本提示的新型标签偏倚校准方法,其在提高性能和减轻标签偏倚方面优于最近的校准方法。我们的结果强调大型语言模型中标签偏倚对其可靠性的影响。
May, 2024
在计算机视觉和自然语言处理领域,本研究重要不可或缺的工具是大型视觉 - 语言模型(LVLMs),它们能够根据视觉输入生成文本描述。然而,我们的调查发现生成的内容存在显著的偏见,主要受到底层大型语言模型(LLMs)的影响而非输入图像。为了纠正这些偏见并将模型的关注重点转向视觉信息,我们提出了两种简单且无需训练的策略。首先,对于分类或多项选择问题回答(QA)等任务,我们通过仿射变换提出了一个 “校准” 步骤来调整输出分布。这种 “事后去偏” 的方法确保了当图像不存在时每个答案都具有均匀的分数,作为一种有效的正则化技术以减轻 LLM 先验的影响。对于更复杂的开放式生成任务,我们将这种方法扩展为 “去偏抽样”,借鉴了对比解码方法的灵感。此外,我们的研究还揭示了 LVLMs 在不同解码配置下的不稳定性,通过对不同设置的系统性探索,我们显著提高了性能,超过了现有评估结果,并对公平性提出了关切。综合实验证明了我们提出的策略在减轻偏见方面的有效性。这些策略不仅有助于减少虚幻现象,还有助于生成更有用和准确的插图。
Mar, 2024
大语言模型带来了强大的性能和发展前景,并广泛应用于现实世界。然而,这些模型可能从未经处理的训练数据中捕捉到社会偏见,并将其传播到下游任务。本文全面回顾了关于大语言模型中的公平性的相关研究,介绍了中等规模的模型和大规模的模型分别从内在偏见和外在偏见的角度引入了评估指标和去偏方法,并讨论了公平性发展中的挑战和未来方向。
Aug, 2023