CMoralEval:中文大型语言模型的道德评估基准
通过对PEW全球调查和世界价值观调查的分析,我们发现预训练的英文语言模型虽然可以捕捉到横跨55个国家和地区的细粒度(例如“同性恋”和“离婚”)道德变异,但不能够显著地预测各个国家的道德规范,然而通过精调可以在牺牲准确度的情况下改善跨国推断。最后我们探讨了将文化知识纳入自动化道德规范推断的相关挑战与意义。
Jun, 2023
本文提供一个超过10万个问题的中文偏见基准数据集,包括与中国文化和价值观相关的14个社会维度中的刻板印象和社会偏见,通过广泛文献综述、生成环境、AI辅助去歧义生成、手动审核和重组等步骤,展示了数据集的广泛覆盖和高多样性,实验表明所有10个公开可用的中文大型语言模型在某些类别中存在强烈的偏见。
Jun, 2023
本文提出了CValues,首个用于评估大型语言模型(LLMs)人类价值观一致性的中文评估基准,该基准通过在十个场景中手动收集对抗性安全提示和由专业专家引导的八个领域的责任提示来衡量LLMs的一致性能力。研究发现,虽然大部分中文LLMs在安全方面表现良好,但在责任方面还有相当大的改进空间。自动评估和人工评估在评估不同方面的人类价值观一致性方面都是重要的。
Jul, 2023
本论文通过大规模语言模型的调查研究案例来介绍了一种用于获取编码在语言模型中的信念的统计方法,并应用此方法研究了不同语言模型中编码的道德信念,特别是在选择不明显的模棱两可情况下。这项研究设计了一项大规模调查研究,包含了680个道德情景(如“我应该说一个善意的谎言吗?”)和687个明确的道德情景(如“我应该在路上停车让行人通过吗?”),并对28个开放和闭源语言模型进行了调查。结果发现,在明确的情景中,大多数模型选择与常识一致的行动,而在模棱两可的情况下,大多数模型表达了不确定性,并且部分模型对问题的方式非常敏感,同时一些模型在模糊情景中反映出明确的偏好,尤其是闭源模型之间的一致性较高。
Jul, 2023
即使处于最先进状态的大型语言模型在生成对话系统方面显示出了令人印象深刻的能力,但我们展示了它们在道德一致性方面的不一致性,进而质疑它们的可靠性(以及总体的信任度)。
Feb, 2024
通过研究GPT-4、ChatGPT和Llama2-70B-Chat在不同语言中进行道德推理的方法,本研究探讨了道德判断是否取决于提示的语言,并发现在其他语言中,ChatGPT和Llama2-70B-Chat存在显著的道德价值偏见,而GPT-4是最具连贯和无偏见的道德推理者。
Apr, 2024
该研究对最先进的大型语言模型进行了综合比较分析,评估了它们的道德特性,发现专有模型主要以功利主义为基础,而开源模型更符合价值伦理学;另外,通过道德基础问卷,除了Llama 2外,所有被调查模型都显示出明显的自由主义偏见;最后,为了对其中一个研究模型进行因果干预,提出了一种新颖的相似性激活引导技术。通过该方法,可以可靠地引导模型的道德观达到不同的伦理学派别。所有这些结果表明,已经部署的大型语言模型存在一个常常被忽视的道德维度。
May, 2024
该论文介绍了一个新颖的基准,旨在衡量和比较大型语言模型的道德推理能力,通过开发针对大型语言模型的道德维度的综合数据集和指标,结合伦理学者的定性洞察力,评估模型性能,并揭示了不同模型的道德推理能力存在显著差异,强调在大型语言模型的开发和评估中考虑道德推理的重要性,并需要进行后续研究来解决暴露在研究中的偏见和局限性。
Jun, 2024
通过对大规模跨文化研究的启发,我们对大型语言模型进行了道德困境的决策制定,发现其中在不同语言环境下,模型与人类偏好吻合程度存在差异,并对模型的道德选择进行了解释和发展水平的评估。
Jul, 2024
本研究解决了大型语言模型在中国教育价值观对齐方面的不足。提出了Edu-Values评估基准,通过设计1,418个问题,评估LLMs在专业意识、文化素养等七个维度的表现。研究发现,中国LLMs在教育文化背景下明显优于英语LLMs,并揭示了LLMs在教学技能方面表现良好但在教师职业道德和基本能力上存在不足。
Sep, 2024