通过全面的研究,我们证实了多语言语言模型中存在多语言人类价值观念,进一步的跨语言分析揭示了语言资源差异引起的三个特征:跨语言不一致性、扭曲的语言关系以及高资源语言与低资源语言之间的单向跨语言传递,同时验证了通过使用主导语言作为源语言来控制多语言语言模型的价值观调整能力的可行性。我们的发现在多语言语言模型的预训练数据构成方面给出了明智的建议:在跨语言对齐传递时包含有限数量的主导语言,避免其过度流行,并保持非主导语言的平衡分布。我们希望我们的发现能够为增强多语言人工智能的安全性和实用性做出贡献。
Feb, 2024
本研究提出了 A2EHV,一种自动化对齐评估方法,旨在提高大型语言模型的价值合理性,并在异构价值系统下进行评估,结合社会心理学中的社会价值取向框架,对大型语言模型的价值合理性进行评估,观察到大型模型更倾向于与中性价值对齐。
May, 2023
基于心理学方法研究,该论文通过提出 ValueLex 框架,重建了大型语言模型(LLMs)的独特价值体系,并鉴定出了三个核心价值维度:能力、品格和诚信。同时,他们还开发了定制的项目测试来评估和分析 LLMs 在不同模型规模、训练方法和数据来源下的价值倾向,从而为未来的人工智能对齐和规范铺平了道路。
Apr, 2024
本研究提出了一种基本价值对准范式,并在基本价值维度上构建了一个价值空间,通过识别潜在价值将所有大型语言模型的行为映射到该空间,以解决对其负有责任的发展中的三个挑战。
Nov, 2023
通过引入 Ch3Ef 数据集和评估策略,本研究总结了 10 多个关键发现,增进了对多模态大语言模型的能力、局限性以及评估层次之间的动态关系的理解,为未来领域的进展指明了方向。
Mar, 2024
利用价值注入的大型语言模型 (VIM) 预测意见和行为的可行性与效果进行了系列实验,结果显示使用价值注入的大型语言模型可更好地预测人们的意见和行为,而且通过注入人类核心价值的变种,其性能显著优于基准方法。
Oct, 2023
以表征工程为灵感,通过人类反馈实现对大型语言模型(LLMs)中高层人类偏好的相关表征的识别,并通过转变其表征来实现对模型行为的精确控制。RAHF 方法在捕捉和操作表征方面表现出出色的效果,能够对齐各种人类偏好,显示了推进 LLM 性能的潜力。
Dec, 2023
该研究论文提出了一种统一的大规模视觉语言模型(LVLM),通过在语言特征空间中统一视觉表示,学习多模态交互,从而在图像和视频基准任务上取得了卓越性能。
通过使用价值理解测量框架(VUM) quantitatively 评估 “知道什么” 和 “知道为什么”,我们评估了五个典型的大型语言模型。结果显示,扩展法则显著影响 “知道什么”,但对 “知道为什么” 的影响不大,而后者始终保持在较高的水平。这可能进一步表明,大型语言模型可能会根据提供的上下文构建合理的解释,但并不真正理解其中的内在价值,表明潜在的风险。
Sep, 2023
利用一个名为识别价值共鸣(RVR)的 NLP 模型,将 WVS 调查的价值观与生成的 LLMs 文本进行比较,发现 LLMs 显示出西方中心主义的价值偏见,高估了非西方国家的保守性,对非西方国家的性别表达不准确,并将年长人口描绘为更具传统价值。