ECBD: NLP 的证据中心基准设计
我们介绍了 EQ-Bench,这是一个旨在评估大型语言模型(LLM)中情绪智能方面的新型基准。我们通过要求 LLMs 预测对话中角色的情绪状态的强度来评估 LLMs 理解复杂情绪和社交互动的能力。该基准能够有效地区分多种模型,与综合多领域基准(如 MMLU)强相关(r=0.97),这表明我们可能捕捉到了广泛智能的类似方面。我们的基准使用 60 个英语问题集生成高度可重复的结果。我们还提供了一个自动化基准测试流水线的开源代码以及一个排行榜。
Dec, 2023
基于真实数据,我们提出了一个灵活的评估框架,在评估因果结构和因果效应的差异方面具有关键属性,可以提高大型语言模型的可解释性。我们引入了基于真实数据的开放式因果发现基准(OCDB),以促进公平比较和算法优化。实验结果显示,现有算法在真实数据上存在显著的泛化能力不足,突出了性能改进的潜力以及我们框架在推进因果发现技术方面的重要性。
Jun, 2024
为了评估大型语言模型(LLMs)在商业情报领域中数据分析能力方面的表现,研究引入了 BIBench,一种全面的基准测试。BIBench 评估 LLMs 在商业情报基础知识、知识应用和技术技能三个维度上的能力,并且包含 11 个子任务。另外,研究还开发了 BIChat,一个包含百万个数据点的领域特定数据集,用于对 LLMs 进行优化。通过提供一种对 LLMs 能力进行深入分析的度量标准,BIBench 旨在推动 LLMs 在数据分析领域的发展。
Jan, 2024
Dynabench 是一个开源平台,支持动态数据集创建和模型基准测试,可以在一个 web 浏览器中运行。通过人和模型操作,使 annotators 创建能够被目标模型误分类但另一个人不能误分类的示例。本文认为,Dynabench 解决了当前模型在基准任务上表现优异,但在简单的挑战示例和实际场景中失败的问题。我们针对四个初始 NLP 任务,阐述了这些概念,突出了 Dynabench 平台的优点,并解决了动态基准测定作为新标准引起的潜在反对意见。
Apr, 2021
该研究论文介绍了全球基准数据库(GBD),一套完整的工具,用于供应和可持续维护基准实例及其元数据。GBD 的数据模型、接口和示例以及如何与其进行交互,已经通过集成自定义数据源和扩展问题领域、实例格式和特征提取器的方法来进行演示。
May, 2024
快速提取、调用函数和数据分析是大型语言模型 (LLMs) 快速生成代码,从提供的数据集中自动化搜索和验证假设的关键。我们通过 DiscoveryBench 这一全面的基准测试来评估这个问题,该基准测试形式化了数据驱动发现的多步骤过程。该基准测试的设计是为了系统评估当前模型在发现任务中的能力,并为改进这些能力提供有用的资源。
Jul, 2024
CTBench 是一个用于评估语言模型在辅助临床研究设计方面的基准测试,通过给定特定研究元数据,CTBench 评估人工智能模型在确定临床试验的基线特征方面的能力,包括从所有参与者开始收集的人口统计学和相关特征。
Jun, 2024
通过贝叶斯实验设计的角度形式化了环境优化问题,并提出了 CO-BED - 一种使用信息理论原理设计上下文实验的通用模型不可知框架。CO-BED 通过一系列实验证明了优越性。
Feb, 2023
提出了应急护理多模态临床基准(MC-BEC),这是一个综合性基准,用于使用 2020-2022 年连续监测的超过 100K 个急诊科访问的数据集评估应急护理中的基础模型。 MC-BEC 关注于分钟到天的时间尺度上的临床相关预测任务,包括预测患者恶化、病情处理和急诊访问,并包括了一个带有训练 - 测试分割和评估指标的标准化评估框架。多模态数据集包括广泛的详细临床数据,包括分诊信息、先前诊断和药物、持续测量的生命体征、心电图和光电信号波形、整个访问期间的医嘱和药物管理、成像研究的自由文本报告、急诊诊断、处理和随后再访的信息。我们提供了每个预测任务的性能基准,以便评估多模态、多任务模型。我们相信 MC-BEC 将鼓励研究人员开发更有效、具有普适性和易获得性的多模态临床数据基础模型。
Nov, 2023