CTBench: 临床试验设计中评估语言模型能力的综合基准
Cyber Threat Intelligence Large Language Models benchmark (CTIBench) evaluates the performance of state-of-the-art models in CTI applications, providing insights into their strengths and weaknesses in the cyber-threat landscape.
Jun, 2024
计算机科学(CS)是人类智能复杂性的证明,深刻推动了人工智能和现代社会的发展。我们引入 CS-Bench,这是第一个专门用于评估 LLM 在计算机科学领域性能的双语(中英文)基准,包括大约 5K 个精心策划的测试样本,涵盖计算机科学的 4 个关键领域的 26 个子领域,包括各种任务形式和知识推理的划分。利用 CS-Bench,我们对 30 多个主流 LLM 进行了全面评估,揭示了 CS 性能与模型规模之间的关系,并定量分析了现有 LLM 失败的原因,并强调了知识补充和 CS 特定推理等改进方向。进一步的跨能力实验显示 LLM 在计算机科学领域能力与数学和编码能力之间存在高度相关性。此外,专注于数学和编码的专家 LLM 在几个 CS 子领域也表现出强大的性能。展望未来,我们预见 CS-Bench 将成为 LLM 在 CS 领域应用的基石,并为评估 LLM 的多样化推理能力开辟新的途径。CS-Bench 的数据和评估代码可在此 https URL 上找到。
Jun, 2024
LLMs 在各领域越来越普及,因此迫切需要改进的 NLP 基准来涵盖各个学科的必要知识。为了解决这个问题,作者提出了 psybench,这是第一个详尽覆盖研究领域所需知识的全面中文评估套件,通过多项选择题深入评估模型在心理学中的优势和劣势,并发现不同领域的性能存在显著差异,展示了测试集中知识不均衡可能导致结果偏斜的风险,仅 ChatGPT 模型的平均准确率超过 70%,表明仍有很大的改进空间。总之,psybench 将有助于对基本模型的优势和劣势进行全面评估,并在心理学领域的实际应用中提供支持。
Nov, 2023
为了解决医学大语言模型的评估工作耗时且需要大量人力的问题,我们引入了 MedBench,这是一个综合性的基准测试,包括来自医学各领域的 40,041 个问题。通过对医学语言学习模型的知识掌握和推理能力进行评估,MedBench 建立了一个可靠的标准,揭示了医学大语言模型的能力和限制,以帮助医学研究社区。
Dec, 2023
将人工智能(AI)与临床诊断过程中的大型语言模型(LLMs)整合,可以显著提高医疗保健的效率和可访问性。本研究通过引入 CliBench—— 一个基于 MIMIC IV 数据集的新型基准测试,评估 LLMs 在临床诊断中的能力,覆盖了多种临床病例的诊断,并包括与临床有关的任务,如治疗程序识别、实验室检查和药物处方等。通过结构化输出本体,CliBench 能够深入了解 LLMs 在不同临床任务上的能力,从而为 LLM 在医疗保健领域的未来发展提供有价值的见解。
Jun, 2024
该研究提出了一个评估 LLMs 不同心理方面的框架 PsychoBench,其中包括了四个明确分类的部分:人格特征、人际关系、动机测试和情绪能力。研究使用了五个常用模型进行测试,并采用了越狱方法绕过安全对齐协议,测试了 LLMs 的内在特性。
Oct, 2023
通过 BiGGen Bench 的引入,对 77 个不同任务中的九种语言模型的生成能力进行了全面评估,并借助实例特定的评估标准来模拟人类评估的微妙辨别。该研究公开提供了代码、数据和评估结果。
Jun, 2024
大型语言模型在法律领域的能力评估中,提出了全面评估基准 LawBench,并经过广泛测试发现 GPT-4 是在法律领域表现最好的模型,但还有很大提升空间。
Sep, 2023
本研究通过实验验证了 GPT-3 和 GPT-4 在 8 个 BioNLP 应用中的性能表现,并对其识别错误进行了分析,提出了在 BioNLP 应用中使用 LLMs 的建议。
May, 2023
最近的大型语言模型 (LLMs) 的进展显著增强了它们的编码能力。然而,现有的基准主要关注编程的简化或隔离方面,如单文件代码生成或存储库问题调试,无法全面衡量真实世界编程活动引发的各种挑战。为此,我们提出了 DevBench,这是一个全面的基准,评估 LLMs 在软件开发生命周期的各个阶段,包括软件设计、环境设置、实施、验收测试和单元测试。DevBench 涵盖了广泛的编程语言和领域,具备高质量的数据收集,并为每个任务设计和验证了仔细设计的指标。经验证实证研究表明,包括 GPT-4-Turbo 在内的当前 LLMs 未能解决 DevBench 中提出的挑战。分析显示,模型在理解存储库中的复杂结构、管理编译过程和掌握高级编程概念方面存在困难。我们的发现为未来 LLMs 的真实世界编程应用的发展提供了可行的洞察。我们的基准可以在此 https URL 获取。
Mar, 2024