关于使用大型语言模型创建合成人物时存在的偏见的担忧
大型语言模型(LLMs)作为数据增强系统在人机交互研究中可用于创建合成人物,以解决黑盒特性和幻觉倾向带来的挑战,并提出了发展鲁棒性认知和记忆框架以指导 LLM 响应的构想。初步探索表明,数据丰富、情景记忆和自我反思技术可以提高合成人物的可靠性,为人机交互研究开辟新途径。
Apr, 2024
通过以人类为模版的角色对大型语言模型进行提示和回答问题,我们研究了这种模型在主观注释任务和信念生成任务中的表现,结果显示大型语言模型在模拟已知的人类偏见方面存在不同的结果,但在表现隐含的偏见方面通常未能达到预期。我们得出结论,大型语言模型缺乏人类思维的内在认知机制,虽然能够捕获人们言语的统计模式,但在复杂社会科学应用中可能限制其效果。
Jun, 2024
大型语言模型中的社会偏见评估和缓解技术的综述,介绍了社会偏见与公平的概念、评估指标和数据集,以及介绍了干预方法的分类和研究趋势,帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。
Sep, 2023
评估三种主要的大型语言模型(Claude 3 Opus、Mistral AI Large 和 Gemini 1.5 Flash)在科学摘要文本生成任务中的表现,发现尽管这些模型的生成文本通常与人类创作的内容非常相似,但在风格上存在显著的性别偏见,这研究强调了开发能够维持多样写作风格以促进学术交流包容性的重要性。
Jun, 2024
基于大型语言模型的系统,在用户隐私方面存在问题,需要更多关注人类隐私问题的研究,包括设计范例对用户的行为披露、用户心智模型和隐私控制偏好的影响,以及赋予终端用户对个人数据的拥有权的工具设计,在此基础上构建可用、高效、具有隐私友好性质的系统。本文旨在启动关于人类隐私问题研究的讨论,为基于大型语言模型的系统中的隐私问题制定议程。
Feb, 2024
我们提出了一种新颖的以人设为驱动的数据合成方法,利用大型语言模型中的各种观点来创建多样化的合成数据。为了在规模上充分利用这种方法,我们引入了 Persona Hub—— 一个从 Web 数据自动筛选得到的 10 亿多样化的人设集合。这 10 亿个人设(相当于世界总人口的 13%),作为传播世界知识的分布式载体,可以利用 LLM 中所囊括的几乎每个观点,从而促进在各种场景中大规模创建多样化的合成数据。通过展示 Persona Hub 在合成高质量的数学和逻辑推理问题,指令(即用户提示),知识丰富的文本,游戏 NPC 和工具(函数)的使用案例,我们证明了以人设为驱动的数据合成是多功能、可扩展、灵活且易于使用的,有潜力推动合成数据创建和实际应用中的范式转变,可能对 LLM 的研究和发展产生深远影响。
Jun, 2024
存在困扰个性化驱动文本生成任务的大型语言模型(LLMs)需要生成反映符合特定人物角色可能具有的观点分布的文本。我们定义不协调的人物角色作为具有多个特征的人物角色,在人类调查数据中,其中一个特征会使其其他特征变得不太可能,例如支持增加军费的政治自由主义者。我们发现 LLMs 比一致的人物角色少 9.7%的可控性,有时会生成与其人口统计学相关的刻板立场,而不是目标立场。我们评估的使用人类反馈强化学习(RLHF)微调的模型更具可控性,尤其是与政治自由主义者和女性相关的立场,但呈现出更少多样化的人物角色观点。我们还发现无法从多选意见评估中预测的 LLM 可控性的方差。我们的研究结果显示了在开放式文本生成中评估模型的重要性,因为它可以揭示新的 LLM 观点偏见。此外,这种设置可以揭示我们将模型引导到更丰富和多样化的观点范围的能力。
May, 2024
通过研究 LLM 生成的合成数据的表现与分类的主观性之间的关系,我们发现主观性对于模型训练的合成数据的性能具有负面影响,从而限制了利用 LLM 进行合成数据生成的潜力和局限性。
Oct, 2023
通过使用大五人格调查,我们在各种大型语言模型中发现了一种以前未被发现的社会期望偏差,它会影响模型的评估和得分。这种偏差存在于所有测试的模型中,并且可能在更近期的模型中出现更严重的程度,对于使用心理测验或将模型作为人类参与者的代理存在一定的限制。
May, 2024
本文探讨了使用心理测量测试来量化和分析大型语言模型输出中的人格特质的可靠性和有效性,并讨论了如何对这些模型进行塑造的潜在应用和伦理影响,特别是关于负责任地使用 LLM。
Jul, 2023