大型语言模型的异构价值评估
通过 fine-tuning 机制,使用大型语言模型生成众人认可的共识性议论,以协调多样化的人类意见,并发现从子集中生成的共识性声明提高了个体贡献,并能够被人类用户所接受,具有较强的差异性和普适性。
Nov, 2022
通过综合调查现有工作的不同对齐目标并追踪其演变路径,本文揭示了从基本能力到价值取向的目标转变,表明内在人类价值可能是提升大型语言模型对齐目标的关键,进一步讨论了实现此内在价值对齐的挑战,并提供了一系列可用资源以支持未来对大型模型对齐的研究。
Aug, 2023
本研究提出了一种基本价值对准范式,并在基本价值维度上构建了一个价值空间,通过识别潜在价值将所有大型语言模型的行为映射到该空间,以解决对其负有责任的发展中的三个挑战。
Nov, 2023
基于心理学方法研究,该论文通过提出ValueLex框架,重建了大型语言模型(LLMs)的独特价值体系,并鉴定出了三个核心价值维度:能力、品格和诚信。同时,他们还开发了定制的项目测试来评估和分析LLMs在不同模型规模、训练方法和数据来源下的价值倾向,从而为未来的人工智能对齐和规范铺平了道路。
Apr, 2024
介绍了ValueBench作为第一个综合性的心理测量基准,用于评估大型语言模型的价值取向和价值理解,并通过在人工智能与人类的实际互动中进行评估管道和开放性价值空间任务的实验,揭示了六个代表性大型语言模型的共同和独特的价值取向,展示了它们在价值相关的提取和生成任务中接近专家结论的能力。
Jun, 2024
近年来,大型语言模型(LLMs)的最新进展引发了人们对验证和理解LLMs可能具有的类人认知行为特质(Attitudes,Opinions,Values)的广泛兴趣。然而,测量嵌入在LLMs中的AOV仍然模糊不清,不同的评估方法可能得出不同的结果。本文旨在通过概述最近对LLMs中AOV评估的研究工作来弥合这一差距。此外,我们还调查了这些研究工作中评估流程不同阶段的相关方法。通过这样做,我们解决了了解模型、人工智能与人类的协同以及在社会科学中的下游应用方面的潜力与挑战。最后,我们提供了对评估方法、模型改进和跨学科合作的实际见解,从而为评估LLMs中的AOV的不断发展的领域做出贡献。
Jun, 2024
本研究解决了大型语言模型(LLMs)与地方价值和伦理标准对齐评估的不足,提出了一个名为LocalValueBench的可扩展基准,专注于评估其与澳大利亚价值观的一致性。通过新的伦理推理类型和审查方法,我们制定了全面的问题并进行了LLMs价值对齐的量化评估,揭示了现有模型的重要局限性和价值对齐的必要性。
Jul, 2024
本研究解决了大型语言模型在不同角色扮演下展现价值取向一致性的问题,提出了角色扮演大规模方法,系统地分析模型的反应。这一方法揭示了语言模型在多样角色中保持一致的反应模式,表明其内在倾向的深层编码。研究结果对基础模型的价值对齐讨论具有重要贡献,并展示了该方法在发现语言模型中编码偏见的有效性。
Aug, 2024
本研究解决了AI系统在处理多样性需求时常见的对个体差异平滑化和刻板化的问题。通过引入IndieValueCatalog数据集,研究了语言模型在个体化价值推理中的局限性,发现其准确率仅为55%到65%。该研究表明,仅通过人口统计信息无法准确描述个体价值,同时提出了IndieValueReasoner以增强模型的个体价值推理能力。
Oct, 2024