教育价值观：评估大型语言模型的中国教育价值

Sep, 2024

教育价值观：评估大型语言模型的中国教育价值

Edu-Values: Towards Evaluating the Chinese Education Values of Large Language Models

Peiyi Zhang, Yazhou Zhang, Bo Wang, Lu Rong, Jing Qin

TL;DR本研究解决了大型语言模型在中国教育价值观对齐方面的不足。提出了Edu-Values评估基准，通过设计1,418个问题，评估LLMs在专业意识、文化素养等七个维度的表现。研究发现，中国LLMs在教育文化背景下明显优于英语LLMs，并揭示了LLMs在教学技能方面表现良好但在教师职业道德和基本能力上存在不足。

Abstract

With the recent evolution of Large Language Models (LLMs), concerns about aligning such models with human values have grown. Previous research has primarily focused on assessing LLMs' performance in terms of the Helpful, Honest, Harmless (3H) basic principles, while often overlooking t

发现论文，激发创造

CValues: 从安全到责任，衡量中国大型语言模型的价值

本文提出了CValues，首个用于评估大型语言模型（LLMs）人类价值观一致性的中文评估基准，该基准通过在十个场景中手动收集对抗性安全提示和由专业专家引导的八个领域的责任提示来衡量LLMs的一致性能力。研究发现，虽然大部分中文LLMs在安全方面表现良好，但在责任方面还有相当大的改进空间。自动评估和人工评估在评估不同方面的人类价值观一致性方面都是重要的。

Jul, 2023

大型语言模型中的文化整合：基于霍夫斯泰德文化维度的分析

使用Hofstede的文化维度框架，通过潜变量分析提供解释性跨文化比较，文中提出了Cultural Alignment Test（CAT）以解决大型语言模型（LLMs）的文化不匹配问题，并使用不同的提示样式和超参数设置评估了ChatGPT和Bard等LLMs嵌入在美国、沙特阿拉伯、中国和斯洛伐克等不同文化之中的文化价值。结果不仅量化了LLMs与特定国家的文化一致性，还揭示了LLMs在解释性文化维度方面的差异。其中GPT-4在理解美国文化价值方面得分最高。

Aug, 2023

E-EVAL：大型语言模型的全面中国K-12教育评估基准

通过介绍首个专为中国K-12教育领域设计的综合评估基准E-EVAL，针对LLM在该领域的各种能力提供准确评估。E-EVAL由4,351道初、中、高级别的选择题组成，并涵盖语文、英语、政治、历史、伦理、物理、化学、数学和地理等多个学科。研究发现，中文优先的模型相比于英文优先的模型表现良好，其中许多模型的得分甚至超过了GPT 4.0。然而，几乎所有模型在数学等复杂科目上表现不佳。大部分中文优先的LLM在小学阶段的得分并不高于中学阶段的得分。同时，研究结果还表明，思维链技术（CoT）仅在具有挑战性的科学学科上有效，而一键提示对于文科学科更加有益。通过E-EVAL，旨在分析LLM在教育应用中的优势和局限，推动中国K-12教育和LLM的进步与发展。

Jan, 2024

CIF-Bench：一个用于评估大型语言模型通用性的中文指令遵循基准

LLMs在处理中文任务方面存在限制，该研究引入了中文指令跟踪基准（CIF-Bench），评估LLMs对中文语言的零射击泛化能力，并揭示出评估偏差和性能差距问题。

Feb, 2024

LHMKE：用于中文大语言模型的大规模综合多学科知识评估基准

LHMKE是一种大规模、全面和多学科知识评估基准，旨在为中文大型语言模型的知识获取能力提供全面评估。它包括10,465个问题，涵盖30个学科的75个任务，既包含客观题又包含主观题，以更全面评估大型语言模型的知识水平。我们对11个中文大型语言模型进行了零-shot评估，并比较了它们在不同学科的性能。通过深入分析，我们也验证了GPT-4是否能够自动评分主观预测。我们的研究结果表明，LHMKE是一个具有挑战性和先进性的中文大型语言模型评估标准。

Mar, 2024

WorldValuesBench：一种大规模多文化价值意识语言模型的基准测试数据集

本文介绍了WorldValuesBench，这是一个全球多元化的大规模基准数据集，用于多元文化价值预测任务，要求模型基于人口统计上下文生成对价值问题的评分回答。该数据集源自一个有影响力的社会科学项目World Values Survey（WVS），从全球94728名参与者那里收集了数百个价值问题（例如社会、经济、伦理学）。我们从WVS的回答中构建了超过2000万个“(人口统计属性，价值问题) → 回答”的例子。我们使用这个数据集进行了案例研究，并表明这个任务对于强大的开源和闭源模型来说是具有挑战性的。在仅11.1%、25.0%、72.2%和75.0%的问题上，Alpaca-7B、Vicuna-7B-v1.5、Mixtral-8x7B-Instruct-v0.1和GPT-3.5 Turbo分别可以实现与人类归一化答案分布的Wasserstein 1距离小于0.2。WorldValuesBench为研究语言模型中的多元文化价值意识的局限性和机遇开辟了新的研究领域。

Apr, 2024

FoundaBench: 评估大型语言模型在中文基础知识能力上的表现

本研究介绍了FoundaBench，这是一个旨在严格评估中国语言和文化定制的大型语言模型的基础知识能力的开创性基准。使用FoundaBench对12个最先进的语言模型进行了全面评估，结果表明在中文语料库上预训练的模型性能更优，同时发现模型的推理和记忆能力存在显著差异。FoundaBench评估得出的见解为理解大型语言模型的基础知识奠定了新的标准，为未来领域的进展提供了一个强大的框架。

Apr, 2024

CMoralEval：中文大型语言模型的道德评估基准

本文针对中文大型语言模型在道德相关背景下的表现，构建了一个名为CMoralEval的大规模道德评估基准，以填补现有研究中的空白。研究提出了一种结合传统文化与现代社会规范的道德分类法，并通过多元真实的数据源创建了包含近三万条道德实例的数据集。实验表明，CMoralEval是中文大型语言模型的一个具有挑战性的基准，具有重要的研究价值和应用潜力。

Aug, 2024

当所有选项都是错误的：评估大型语言模型在错误选择题上的鲁棒性

本研究探讨了大型语言模型（LLMs）在零-shot条件下识别没有正确答案的选择题的能力，这对教育评估质量至关重要。研究结果显示，LLMs在处理无正确答案问题时表现显著低于有正确答案的问题，Llama-3.1-405B在识别无效答案方面表现突出，提示LLMs在教育应用中需更重视批判性思维能力，以避免错误评估。

Aug, 2024

使用中国初中考试数据评估大型语言模型的基准测试CJEval

本研究针对现有学术基准在实际教育场景中指导不足的问题，提出了基于中国初中考试评估的CJEval基准。该基准包含26,136个样本，涵盖四个教育应用任务，提供了详尽的注释。研究表明，CJEval能够有效评估大型语言模型在教育中的潜在应用，同时揭示了该领域的机遇与挑战。

Sep, 2024