通过研究大型语言模型(LLMs)的决策过程中的偏见,本研究揭示了不同偏见在决策过程中的微妙作用,并发现合适的平衡可以提高模型性能、改善决策准确性。我们引入了启发式调节和弃权选项的概念,并通过我们的研究结果表明,恰当缩放的偏见检查能够使 LLMs 的决策更符合人类的推理,提高其可靠性和值得信赖性,从而为未来的改进提供了新的策略。
Jun, 2024
通过探索大型语言模型 (LLMs) 的设计,本文主要讨论偏见与 LLMs 之间的关系,并试图让读者相信有害偏见是目前 LLMs 设计不可避免的结果,因此要解决有害偏见问题,需要对以 LLMs 为驱动的人工智能进行严肃的重新考虑,回到其设计所基于的基本假设。
大型语言模型中的社会偏见评估和缓解技术的综述,介绍了社会偏见与公平的概念、评估指标和数据集,以及介绍了干预方法的分类和研究趋势,帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。
Sep, 2023
大型语言模型在合理推理中显示出人类的偏见和不合理行为,但这种不合理行为与人类不同,且存在额外的回答不一致性。
Feb, 2024
为了提高语言模型的公正性,本文提出了多项定义并给出了新的测试和度量方式,旨在减少机器学习在文本生成过程中对性别、种族、语言宗教等社会构建的刻板印象所带来的负面影响。实证结果和人工评估表明,该方法能够在文本生成中减少偏见同时保留重要的上下文信息。
Jun, 2021
本研究旨在探讨大型语言模型是否能够成为认知模型,并发现通过在心理实验数据上微调这些模型,它们能够提供准确的人类行为表示,甚至在两个决策制定领域中表现比传统的认知模型更好。此外,我们展示了它们的表示含有模拟个体受试者行为所需的信息,并演示了在多个任务上进行微调的能力使得大型模型能够预测以前从未见过的任务中人类行为,这表明预先训练的大型模型可以被改进为通用认知模型,从而开辟了颠覆认知心理学和行为科学的新研究方向。
Jun, 2023
这篇研究使用变换器语言模型研究了其训练数据所带来的偏见问题,并提出了一种去偏方法,得到的去偏模型在下游任务上保持了良好的表现。
May, 2023
通过检验三种认知偏见(假象效应、确定性效应和信仰偏误)在经过指导调优的语言模型中的存在程度,我们的研究提供了证据表明,这些经过调优的模型表现出过去预训练模型中不存在或较不明显的偏见,进一步突出了这些偏见存在于各种模型中的事实,特别是那些经过指导调优的模型,如 Flan-T5,GPT3.5 和 GPT4,这一研究对认识指导调优的语言模型中的认知偏见是至关重要的,从而对更可靠、无偏的语言模型的发展具有重要意义。
Aug, 2023
本文利用自然语言生成中存在的偏见漏洞,探索了六个不同在线社区的偏见。通过对 GPT-Neo 1.3B 进行精细调整,该文评估了生成模型的偏见,并通过不同的人口属性来比较情感和毒性价值,从而揭示了各种模型的偏见类型和强度的差异。此外,本文所生成的示例还展示了在偏见研究中使用自动情感和毒性分类器的局限性。
AI 技术中的语言偏见是研究和开发方法论不公正的结果,我们提出了一项新的倡议,旨在通过技术设计和方法论,与当地社区进行眼球级的合作,减少语言偏见。
Jul, 2023