CPSDBench:一个用于中国公安领域的大型语言模型评估基准和基线
LLMs 在各领域越来越普及,因此迫切需要改进的 NLP 基准来涵盖各个学科的必要知识。为了解决这个问题,作者提出了 psybench,这是第一个详尽覆盖研究领域所需知识的全面中文评估套件,通过多项选择题深入评估模型在心理学中的优势和劣势,并发现不同领域的性能存在显著差异,展示了测试集中知识不均衡可能导致结果偏斜的风险,仅 ChatGPT 模型的平均准确率超过 70%,表明仍有很大的改进空间。总之,psybench 将有助于对基本模型的优势和劣势进行全面评估,并在心理学领域的实际应用中提供支持。
Nov, 2023
计算机科学(CS)是人类智能复杂性的证明,深刻推动了人工智能和现代社会的发展。我们引入 CS-Bench,这是第一个专门用于评估 LLM 在计算机科学领域性能的双语(中英文)基准,包括大约 5K 个精心策划的测试样本,涵盖计算机科学的 4 个关键领域的 26 个子领域,包括各种任务形式和知识推理的划分。利用 CS-Bench,我们对 30 多个主流 LLM 进行了全面评估,揭示了 CS 性能与模型规模之间的关系,并定量分析了现有 LLM 失败的原因,并强调了知识补充和 CS 特定推理等改进方向。进一步的跨能力实验显示 LLM 在计算机科学领域能力与数学和编码能力之间存在高度相关性。此外,专注于数学和编码的专家 LLM 在几个 CS 子领域也表现出强大的性能。展望未来,我们预见 CS-Bench 将成为 LLM 在 CS 领域应用的基石,并为评估 LLM 的多样化推理能力开辟新的途径。CS-Bench 的数据和评估代码可在此 https URL 上找到。
Jun, 2024
开放评估是一个评估测试基地,以能力、对齐和安全等方面对中文大型语言模型进行基准测试,并发现了在常识推理、对齐和安全性等方面需要更多关注的问题。
Mar, 2024
该论文介绍了 CHiSafetyBench,这是一个专门用于评估大型语言模型在中文情境中识别危险内容和拒绝回答危险问题能力的安全基准。通过该基准,作者验证了自动评估作为人工评估的替代的可行性,并对主流的中文语言模型进行了全面的自动安全评估。实验表明,不同模型在各个安全领域的性能存在差异,指示了所有模型在中国的安全能力方面有相当大的改进潜力。
Jun, 2024
为了解决医学大语言模型的评估工作耗时且需要大量人力的问题,我们引入了 MedBench,这是一个综合性的基准测试,包括来自医学各领域的 40,041 个问题。通过对医学语言学习模型的知识掌握和推理能力进行评估,MedBench 建立了一个可靠的标准,揭示了医学大语言模型的能力和限制,以帮助医学研究社区。
Dec, 2023
我们提出了第一个基于法学能力的中国法学硕士 (LLMs) 综合评估基准。通过法律和人工智能专家的协作努力,我们将法学硕士的法律能力分为三个层次:基本法律自然语言处理能力、基本法律应用能力和复杂法律应用能力。我们已完成了第一阶段的评估,主要关注基本法律自然语言处理能力。评估结果显示,尽管一些法学硕士在性能上优于它们的基础模型,但与 ChatGPT 相比仍存在差距。我们的基准测试可以在 URL 上找到。
Oct, 2023
提出了 CFinBench:一个经过精心设计的,迄今为止最全面的评估基准,用于评估大型语言模型在中国金融领域的金融知识,包括财务学科、金融资格、金融实践和金融法律等四个一级类别。实验结果表明,GPT4 和一些面向中文的模型在 CFinBench 中取得最佳性能,平均准确率高达 60.16%。
Jul, 2024
大型语言模型在法律领域的能力评估中,提出了全面评估基准 LawBench,并经过广泛测试发现 GPT-4 是在法律领域表现最好的模型,但还有很大提升空间。
Sep, 2023
目前缺乏对大型语言模型(LLMs)在心理健康领域能力评估的全面基准。因此,我们填补该空白,并引入了首个适用于心理健康领域特点的全面基准,包括六个子任务、三个维度,系统评估 LLMs 在心理健康领域的能力。我们为每个子任务设计了相应的简明提示,并全面评估了八个先进的 LLMs 使用我们的基准。实验结果不仅展示了当前 LLMs 在心理健康方面的改进空间,还揭示了未来模型优化的潜在方向。
Nov, 2023
以 SafetyBench 为基础,该研究设计了一个综合评估大型语言模型安全性的基准测试工具,包括 11435 个不同类别的问题,并能够提供两种语言(中文和英文)的评估结果,通过测试发现 GPT-4 在安全性方面相较于其他模型表现突出,但当前大型语言模型的安全性仍有提升空间。
Sep, 2023