大型语言模型中的高维人类价值表示
本研究提出了A2EHV,一种自动化对齐评估方法,旨在提高大型语言模型的价值合理性,并在异构价值系统下进行评估,结合社会心理学中的社会价值取向框架,对大型语言模型的价值合理性进行评估,观察到大型模型更倾向于与中性价值对齐。
May, 2023
本文提出了CValues,首个用于评估大型语言模型(LLMs)人类价值观一致性的中文评估基准,该基准通过在十个场景中手动收集对抗性安全提示和由专业专家引导的八个领域的责任提示来衡量LLMs的一致性能力。研究发现,虽然大部分中文LLMs在安全方面表现良好,但在责任方面还有相当大的改进空间。自动评估和人工评估在评估不同方面的人类价值观一致性方面都是重要的。
Jul, 2023
综述了大型语言模型对齐技术的全面概述,包括数据收集、训练方法和模型评估,并提供了未来研究方向的启示,是了解和推进适应人类任务和期望的LLM对齐的宝贵资源。
Jul, 2023
通过综合调查现有工作的不同对齐目标并追踪其演变路径,本文揭示了从基本能力到价值取向的目标转变,表明内在人类价值可能是提升大型语言模型对齐目标的关键,进一步讨论了实现此内在价值对齐的挑战,并提供了一系列可用资源以支持未来对大型模型对齐的研究。
Aug, 2023
本研究提出了一种基本价值对准范式,并在基本价值维度上构建了一个价值空间,通过识别潜在价值将所有大型语言模型的行为映射到该空间,以解决对其负有责任的发展中的三个挑战。
Nov, 2023
以表征工程为灵感,通过人类反馈实现对大型语言模型(LLMs)中高层人类偏好的相关表征的识别,并通过转变其表征来实现对模型行为的精确控制。RAHF方法在捕捉和操作表征方面表现出出色的效果,能够对齐各种人类偏好,显示了推进LLM性能的潜力。
Dec, 2023
通过全面的研究,我们证实了多语言语言模型中存在多语言人类价值观念,进一步的跨语言分析揭示了语言资源差异引起的三个特征:跨语言不一致性、扭曲的语言关系以及高资源语言与低资源语言之间的单向跨语言传递,同时验证了通过使用主导语言作为源语言来控制多语言语言模型的价值观调整能力的可行性。我们的发现在多语言语言模型的预训练数据构成方面给出了明智的建议:在跨语言对齐传递时包含有限数量的主导语言,避免其过度流行,并保持非主导语言的平衡分布。我们希望我们的发现能够为增强多语言人工智能的安全性和实用性做出贡献。
Feb, 2024
通过引入Ch3Ef数据集和评估策略,本研究总结了10多个关键发现,增进了对多模态大语言模型的能力、局限性以及评估层次之间的动态关系的理解,为未来领域的进展指明了方向。
Mar, 2024
基于心理学方法研究,该论文通过提出ValueLex框架,重建了大型语言模型(LLMs)的独特价值体系,并鉴定出了三个核心价值维度:能力、品格和诚信。同时,他们还开发了定制的项目测试来评估和分析LLMs在不同模型规模、训练方法和数据来源下的价值倾向,从而为未来的人工智能对齐和规范铺平了道路。
Apr, 2024
本综述从以偏好为中心的角度回顾了探索大型语言模型(LLMs)的人类偏好学习的进展,包括偏好反馈的来源和格式,偏好信号的建模和使用,以及对齐LLMs的评估。
Jun, 2024