CMoralEval：中文大型语言模型的道德评估基准

Aug, 2024

CMoralEval：中文大型语言模型的道德评估基准

CMoralEval: A Moral Evaluation Benchmark for Chinese Large Language Models

Linhao Yu, Yongqi Leng, Yufei Huang, Shang Wu, Haixin Liu...

TL;DR本文针对中文大型语言模型在道德相关背景下的表现，构建了一个名为CMoralEval的大规模道德评估基准，以填补现有研究中的空白。研究提出了一种结合传统文化与现代社会规范的道德分类法，并通过多元真实的数据源创建了包含近三万条道德实例的数据集。实验表明，CMoralEval是中文大型语言模型的一个具有挑战性的基准，具有重要的研究价值和应用潜力。

Abstract

What a large language model (LLM) would respond in ethically relevant context? In this paper, we curate a large benchmark CMoralEval for morality evaluation of Chinese LLMs. The data sources of CMoralEval are two-fold: 1) a Chinese TV program discussing Chinese moral norms with stories from the society and 2) a collection of Chinese moral anomies from variou

发现论文，激发创造

大型语言模型对文化及道德规范的了解

通过对PEW全球调查和世界价值观调查的分析,我们发现预训练的英文语言模型虽然可以捕捉到横跨55个国家和地区的细粒度（例如“同性恋”和“离婚”）道德变异，但不能够显著地预测各个国家的道德规范，然而通过精调可以在牺牲准确度的情况下改善跨国推断。最后我们探讨了将文化知识纳入自动化道德规范推断的相关挑战与意义。

Jun, 2023

CBBQ：一個由人工智能協作策劃的中文偏差測試數據集，供大型語言模型使用

本文提供一个超过10万个问题的中文偏见基准数据集，包括与中国文化和价值观相关的14个社会维度中的刻板印象和社会偏见，通过广泛文献综述、生成环境、AI辅助去歧义生成、手动审核和重组等步骤，展示了数据集的广泛覆盖和高多样性，实验表明所有10个公开可用的中文大型语言模型在某些类别中存在强烈的偏见。

Jun, 2023

CValues: 从安全到责任，衡量中国大型语言模型的价值

本文提出了CValues，首个用于评估大型语言模型（LLMs）人类价值观一致性的中文评估基准，该基准通过在十个场景中手动收集对抗性安全提示和由专业专家引导的八个领域的责任提示来衡量LLMs的一致性能力。研究发现，虽然大部分中文LLMs在安全方面表现良好，但在责任方面还有相当大的改进空间。自动评估和人工评估在评估不同方面的人类价值观一致性方面都是重要的。

Jul, 2023

评估LLM中所包含的道德信念

本论文通过大规模语言模型的调查研究案例来介绍了一种用于获取编码在语言模型中的信念的统计方法，并应用此方法研究了不同语言模型中编码的道德信念，特别是在选择不明显的模棱两可情况下。这项研究设计了一项大规模调查研究，包含了680个道德情景（如“我应该说一个善意的谎言吗？”）和687个明确的道德情景（如“我应该在路上停车让行人通过吗？”），并对28个开放和闭源语言模型进行了调查。结果发现，在明确的情景中，大多数模型选择与常识一致的行动，而在模棱两可的情况下，大多数模型表达了不确定性，并且部分模型对问题的方式非常敏感，同时一些模型在模糊情景中反映出明确的偏好，尤其是闭源模型之间的一致性较高。

Jul, 2023

SaGE：大型语言模型中的道德一致性评估

即使处于最先进状态的大型语言模型在生成对话系统方面显示出了令人印象深刻的能力，但我们展示了它们在道德一致性方面的不一致性，进而质疑它们的可靠性（以及总体的信任度）。

Feb, 2024

基于语言提示的LLM伦理推理和道德价值调整

通过研究GPT-4、ChatGPT和Llama2-70B-Chat在不同语言中进行道德推理的方法，本研究探讨了道德判断是否取决于提示的语言，并发现在其他语言中，ChatGPT和Llama2-70B-Chat存在显著的道德价值偏见，而GPT-4是最具连贯和无偏见的道德推理者。

Apr, 2024

探索和引导大型语言模型的道德罗盘

该研究对最先进的大型语言模型进行了综合比较分析，评估了它们的道德特性，发现专有模型主要以功利主义为基础，而开源模型更符合价值伦理学；另外，通过道德基础问卷，除了Llama 2外，所有被调查模型都显示出明显的自由主义偏见；最后，为了对其中一个研究模型进行因果干预，提出了一种新颖的相似性激活引导技术。通过该方法，可以可靠地引导模型的道德观达到不同的伦理学派别。所有这些结果表明，已经部署的大型语言模型存在一个常常被忽视的道德维度。

May, 2024

MoralBench: LLMs的道德评估

该论文介绍了一个新颖的基准，旨在衡量和比较大型语言模型的道德推理能力，通过开发针对大型语言模型的道德维度的综合数据集和指标，结合伦理学者的定性洞察力，评估模型性能，并揭示了不同模型的道德推理能力存在显著差异，强调在大型语言模型的开发和评估中考虑道德推理的重要性，并需要进行后续研究来解决暴露在研究中的偏见和局限性。

Jun, 2024

多语言语言模型的哲学思考

通过对大规模跨文化研究的启发，我们对大型语言模型进行了道德困境的决策制定，发现其中在不同语言环境下，模型与人类偏好吻合程度存在差异，并对模型的道德选择进行了解释和发展水平的评估。

Jul, 2024

教育价值观：评估大型语言模型的中国教育价值

本研究解决了大型语言模型在中国教育价值观对齐方面的不足。提出了Edu-Values评估基准，通过设计1,418个问题，评估LLMs在专业意识、文化素养等七个维度的表现。研究发现，中国LLMs在教育文化背景下明显优于英语LLMs，并揭示了LLMs在教学技能方面表现良好但在教师职业道德和基本能力上存在不足。

Sep, 2024