PsyBench: 一个平衡且深入的心理学中文评估基准

Nov, 2023

PsyBench: 一个平衡且深入的心理学中文评估基准

PsyBench: a balanced and in-depth Psychological Chinese Evaluation Benchmark for Foundation Models

Junlei Zhang, Hongliang He, Nirui Song, Shuyuan He, \\Shuai Zhang...

TL;DRLLMs 在各领域越来越普及，因此迫切需要改进的 NLP 基准来涵盖各个学科的必要知识。为了解决这个问题，作者提出了 psybench，这是第一个详尽覆盖研究领域所需知识的全面中文评估套件，通过多项选择题深入评估模型在心理学中的优势和劣势，并发现不同领域的性能存在显著差异，展示了测试集中知识不均衡可能导致结果偏斜的风险，仅 ChatGPT 模型的平均准确率超过 70％，表明仍有很大的改进空间。总之，psybench 将有助于对基本模型的优势和劣势进行全面评估，并在心理学领域的实际应用中提供支持。

Abstract

As large language models (LLMs) are becoming prevalent in various fields, there is an urgent need for improved nlp benchmarks that encompass all the necessary knowledge of individual discipline. Many contemporary

large language models nlp benchmarks psybench graduate entrance exams chatgpt model

发现论文，激发创造

CPsyExam：用考试评价心理学的中文基准

我们介绍了一个新颖的心理学基准测试 CPsyExam，该测试由来自中文考试的问题构成。CPsyExam 着重于将心理学知识和案例分析分开，认识到将心理学知识应用于实际场景的重要性。从 22k 个问题中选取 4k 个问题构成的基准测试，它涵盖了各种学科，结合了多样的案例分析技术。此外，我们评估了一系列现有的大型语言模型（LLMs），从开源到 API-based 模型不一而足。我们的实验和分析表明，CPsyExam 是提高 LLMs 对心理学理解的有效基准测试，同时可以比较各种粒度下的 LLMs。

May, 2024

ChatGPT 是谁？利用 PsychoBench 评估 LLM 的心理描绘

该研究提出了一个评估 LLMs 不同心理方面的框架 PsychoBench，其中包括了四个明确分类的部分：人格特征、人际关系、动机测试和情绪能力。研究使用了五个常用模型进行测试，并采用了越狱方法绕过安全对齐协议，测试了 LLMs 的内在特性。

Oct, 2023

PsyEval：一种用于精神健康领域的综合大型语言模型评估基准

目前缺乏对大型语言模型（LLMs）在心理健康领域能力评估的全面基准。因此，我们填补该空白，并引入了首个适用于心理健康领域特点的全面基准，包括六个子任务、三个维度，系统评估 LLMs 在心理健康领域的能力。我们为每个子任务设计了相应的简明提示，并全面评估了八个先进的 LLMs 使用我们的基准。实验结果不仅展示了当前 LLMs 在心理健康方面的改进空间，还揭示了未来模型优化的潜在方向。

Nov, 2023

CS-Bench: 大型语言模型的全面基准，助力计算机科学掌握

计算机科学（CS）是人类智能复杂性的证明，深刻推动了人工智能和现代社会的发展。我们引入 CS-Bench，这是第一个专门用于评估 LLM 在计算机科学领域性能的双语（中英文）基准，包括大约 5K 个精心策划的测试样本，涵盖计算机科学的 4 个关键领域的 26 个子领域，包括各种任务形式和知识推理的划分。利用 CS-Bench，我们对 30 多个主流 LLM 进行了全面评估，揭示了 CS 性能与模型规模之间的关系，并定量分析了现有 LLM 失败的原因，并强调了知识补充和 CS 特定推理等改进方向。进一步的跨能力实验显示 LLM 在计算机科学领域能力与数学和编码能力之间存在高度相关性。此外，专注于数学和编码的专家 LLM 在几个 CS 子领域也表现出强大的性能。展望未来，我们预见 CS-Bench 将成为 LLM 在 CS 领域应用的基石，并为评估 LLM 的多样化推理能力开辟新的途径。CS-Bench 的数据和评估代码可在此 https URL 上找到。

Jun, 2024

FoundaBench: 评估大型语言模型在中文基础知识能力上的表现

本研究介绍了 FoundaBench，这是一个旨在严格评估中国语言和文化定制的大型语言模型的基础知识能力的开创性基准。使用 FoundaBench 对 12 个最先进的语言模型进行了全面评估，结果表明在中文语料库上预训练的模型性能更优，同时发现模型的推理和记忆能力存在显著差异。FoundaBench 评估得出的见解为理解大型语言模型的基础知识奠定了新的标准，为未来领域的进展提供了一个强大的框架。

Apr, 2024

CFinBench：大型语言模型的全面中文金融基准

提出了 CFinBench：一个经过精心设计的，迄今为止最全面的评估基准，用于评估大型语言模型在中国金融领域的金融知识，包括财务学科、金融资格、金融实践和金融法律等四个一级类别。实验结果表明，GPT4 和一些面向中文的模型在 CFinBench 中取得最佳性能，平均准确率高达 60.16%。

Jul, 2024

MedBench：一个用于评估医学大型语言模型的大规模中文基准

为了解决医学大语言模型的评估工作耗时且需要大量人力的问题，我们引入了 MedBench，这是一个综合性的基准测试，包括来自医学各领域的 40,041 个问题。通过对医学语言学习模型的知识掌握和推理能力进行评估，MedBench 建立了一个可靠的标准，揭示了医学大语言模型的能力和限制，以帮助医学研究社区。

Dec, 2023

CPSDBench：一个用于中国公安领域的大型语言模型评估基准和基线

通过构建一个专门针对中国公安领域的评估基准系统（CPSDbench），本研究旨在评估主流大型语言模型（LLMs）在公安任务中的性能，并介绍了一组创新的评估指标，以更准确地衡量 LLMs 在处理公安问题的任务中的效能。通过深入分析和评估，不仅提升了我们对现有模型在解决公安问题上的性能优势和局限性的理解，还为未来开发更准确、定制的面向该领域应用的 LLM 模型提供了参考。

Feb, 2024

CogBench：一个大型语言模型进入心理学实验室

大型语言模型在人工智能领域取得了显著进展，然而它们的综合评估仍具挑战性。本研究引入了 CogBench 评估工具，包含七项认知心理学实验中衍生出的十项行为度量指标，并运用这一工具对 35 个大型语言模型进行了分析。研究结果突出了模型规模和人类反馈的强化学习在性能提升和与人类行为的一致性方面的关键作用。此外，本研究还探讨了提示工程技术的影响，发现链式思路提示能够改善概率推理，而退一步思考提示则促进了基于模型的行为。

Feb, 2024

CTBench: 临床试验设计中评估语言模型能力的综合基准

CTBench 是一个用于评估语言模型在辅助临床研究设计方面的基准测试，通过给定特定研究元数据，CTBench 评估人工智能模型在确定临床试验的基线特征方面的能力，包括从所有参与者开始收集的人口统计学和相关特征。

Jun, 2024