大型语言模型的偏见源于其规模
大型语言模型中的社会偏见评估和缓解技术的综述,介绍了社会偏见与公平的概念、评估指标和数据集,以及介绍了干预方法的分类和研究趋势,帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。
Sep, 2023
大型语言模型(LLMs)可能对公众对信息的认知和互动产生重大影响,因此需要对其内部思想意识是否可以轻易操纵引起关注。本研究探讨了 LLMs 在指导训练数据中学习和推广意识形态偏见的效果,并揭示了令人担忧的脆弱性:仅接触少量的思想倾向样本就会明显改变 LLMs 的思想意识,尤为显著的是,LLMs 展示了吸收一个主题的意识形态,并将其普遍应用于其他无关主题的惊人能力。LLMs 思想意识易受到恶意操作者故意操纵训练数据或数据标注者无意引入的偏见的风险,这强调了采取强有力的安全措施以减轻意识形态操纵对 LLMs 影响的重要性。
Feb, 2024
大语言模型带来了强大的性能和发展前景,并广泛应用于现实世界。然而,这些模型可能从未经处理的训练数据中捕捉到社会偏见,并将其传播到下游任务。本文全面回顾了关于大语言模型中的公平性的相关研究,介绍了中等规模的模型和大规模的模型分别从内在偏见和外在偏见的角度引入了评估指标和去偏方法,并讨论了公平性发展中的挑战和未来方向。
Aug, 2023
大型语言模型广泛用于自然语言生成任务的自动评估指标,然而,由于句子中的表面差异(如词序和句子结构),可能会导致语言模型的可能性有所偏差,本文研究了基于语言模型的评估器中可能存在的可能性偏见,并提出了缓解可能性偏见的方法,该方法利用高度偏倚的实例作为少样本示例进行上下文学习,实验证明我们测试的几个语言模型存在可能性偏见,而且我们提出的方法成功地缓解了这种偏见,并显著提高了评估性能(与人类评分的相关性)。
Feb, 2024
我们提出了一个名为 GPTBIAS 的偏见评估框架,它利用 LLMs 的高性能来评估模型的偏见,提供偏见分数以及包括偏见类型、受影响的人群、关键词和改进建议在内的详细信息,通过广泛的实验证明了该评估框架的有效性和可用性。
Dec, 2023
该研究介绍了一个假设检验框架,用于评估大型语言模型(LLMs)是否具有真正的推理能力,还是主要依赖于令牌偏差。我们超越准确性的评估,旨在调查 LLMs 在解决逻辑推理任务时的令牌偏差。具体而言,我们开发了精心控制的合成数据集,其中包括合取谬误和演绎问题。我们的框架概述了一系列假设,其中令牌偏差很容易被识别,所有零假设均假设 LLMs 具有真正的推理能力。本研究的发现以统计保证表明,多数 LLMs 在逻辑推理方面仍然有困难。尽管它们在经典问题上表现出色,但它们的成功主要依赖于识别带有强烈令牌偏差的表面模式,因此引发了对其实际推理和泛化能力的担忧。
Jun, 2024
这项研究通过从 GLOBE 项目获取的价值问题激发 ChatGPT(OpenAI)和 Bard(Google)来探讨了大型语言模型的文化自我认知,结果显示它们与英语国家和经济竞争力强的国家的价值观最为相似。认识到大型语言模型的文化偏见并理解它们的工作方式对社会中的所有人都非常重要,因为我们不希望人工智能的黑盒子延续偏见,使人类在无意中创造和训练更加带有偏见的算法。
Dec, 2023
我们的研究揭示了大型语言模型在面临对抗性攻击时的脆弱性的根源,质疑仅仅依赖复杂的对齐方法的有效性,并进一步主张将模态概念与传统的非模态概念相结合,为大型语言模型赋予对现实世界环境以及伦理考虑更细致的理解。
Nov, 2023
通过探索新的方法来检测大型语言模型中的潜在偏见,本研究聚焦于不确定性量化和可解释人工智能方法,旨在提高模型决策的透明性,以识别和理解不明显的偏见,从而为更加公平和透明的人工智能系统的发展做出贡献。
Apr, 2024