May, 2023

大型语言模型的异构价值评估

TL;DR本研究提出了 A2EHV,一种自动化对齐评估方法,旨在提高大型语言模型的价值合理性,并在异构价值系统下进行评估,结合社会心理学中的社会价值取向框架,对大型语言模型的价值合理性进行评估,观察到大型模型更倾向于与中性价值对齐。