ECBD: NLP 的证据中心基准设计

Jun, 2024

ECBD: Evidence-Centered Benchmark Design for NLP

Yu Lu Liu, Su Lin Blodgett, Jackie Chi Kit Cheung, Q. Vera Liao, Alexandra Olteanu...

TL;DR综合证据为中心的基准设计（ECBD）框架确定角色，以帮助从案例研究中收集与能力相关的证据，同时发现了基准设计和文档编写的常见趋势可能会威胁基准测试的有效性。

Abstract

benchmarking is seen as critical to assessing progress in NLP. However, creating a benchmark involves many design decisions (e.g., which datasets to include, which metrics to use) that often rely on tacit, untested assumptions about what the benchmark is intended to measure or is actua

benchmarking evidence-centered design benchmark design capabilities validity

发现论文，激发创造

现代贝叶斯实验设计

本文综述了贝叶斯实验设计在优化实验设计方面的应用。最近的进展解决了计算方面的挑战，使得该方法更加实用。同时，文章也探讨了未来该领域的发展方向。

Feb, 2023

EQ-Bench: 大型语言模型的情绪智能基准

我们介绍了 EQ-Bench，这是一个旨在评估大型语言模型（LLM）中情绪智能方面的新型基准。我们通过要求 LLMs 预测对话中角色的情绪状态的强度来评估 LLMs 理解复杂情绪和社交互动的能力。该基准能够有效地区分多种模型，与综合多领域基准（如 MMLU）强相关（r=0.97），这表明我们可能捕捉到了广泛智能的类似方面。我们的基准使用 60 个英语问题集生成高度可重复的结果。我们还提供了一个自动化基准测试流水线的开源代码以及一个排行榜。

Dec, 2023

OCDB：重新审视因果推断的全面基准和评估框架

基于真实数据，我们提出了一个灵活的评估框架，在评估因果结构和因果效应的差异方面具有关键属性，可以提高大型语言模型的可解释性。我们引入了基于真实数据的开放式因果发现基准（OCDB），以促进公平比较和算法优化。实验结果显示，现有算法在真实数据上存在显著的泛化能力不足，突出了性能改进的潜力以及我们框架在推进因果发现技术方面的重要性。

Jun, 2024

BIBench：大型语言模型的数据分析知识基准测试

为了评估大型语言模型（LLMs）在商业情报领域中数据分析能力方面的表现，研究引入了 BIBench，一种全面的基准测试。BIBench 评估 LLMs 在商业情报基础知识、知识应用和技术技能三个维度上的能力，并且包含 11 个子任务。另外，研究还开发了 BIChat，一个包含百万个数据点的领域特定数据集，用于对 LLMs 进行优化。通过提供一种对 LLMs 能力进行深入分析的度量标准，BIBench 旨在推动 LLMs 在数据分析领域的发展。

Jan, 2024

Dynabench: NLP 基准评估的重新思考

Dynabench 是一个开源平台，支持动态数据集创建和模型基准测试，可以在一个 web 浏览器中运行。通过人和模型操作，使 annotators 创建能够被目标模型误分类但另一个人不能误分类的示例。本文认为，Dynabench 解决了当前模型在基准任务上表现优异，但在简单的挑战示例和实际场景中失败的问题。我们针对四个初始 NLP 任务，阐述了这些概念，突出了 Dynabench 平台的优点，并解决了动态基准测定作为新标准引起的潜在反对意见。

Apr, 2021

全球基准数据库

该研究论文介绍了全球基准数据库（GBD），一套完整的工具，用于供应和可持续维护基准实例及其元数据。GBD 的数据模型、接口和示例以及如何与其进行交互，已经通过集成自定义数据源和扩展问题领域、实例格式和特征提取器的方法来进行演示。

May, 2024

DiscoveryBench：基于大型语言模型的数据驱动发现

快速提取、调用函数和数据分析是大型语言模型 (LLMs) 快速生成代码，从提供的数据集中自动化搜索和验证假设的关键。我们通过 DiscoveryBench 这一全面的基准测试来评估这个问题，该基准测试形式化了数据驱动发现的多步骤过程。该基准测试的设计是为了系统评估当前模型在发现任务中的能力，并为改进这些能力提供有用的资源。

Jul, 2024

CTBench: 临床试验设计中评估语言模型能力的综合基准

CTBench 是一个用于评估语言模型在辅助临床研究设计方面的基准测试，通过给定特定研究元数据，CTBench 评估人工智能模型在确定临床试验的基线特征方面的能力，包括从所有参与者开始收集的人口统计学和相关特征。

Jun, 2024

CO-BED: 基于贝叶斯实验设计的信息论环境优化

通过贝叶斯实验设计的角度形式化了环境优化问题，并提出了 CO-BED - 一种使用信息理论原理设计上下文实验的通用模型不可知框架。CO-BED 通过一系列实验证明了优越性。

Feb, 2023

应急护理的多模式临床基准 (MC-BEC)：评估紧急医学基础模型的综合基准

提出了应急护理多模态临床基准（MC-BEC），这是一个综合性基准，用于使用 2020-2022 年连续监测的超过 100K 个急诊科访问的数据集评估应急护理中的基础模型。 MC-BEC 关注于分钟到天的时间尺度上的临床相关预测任务，包括预测患者恶化、病情处理和急诊访问，并包括了一个带有训练 - 测试分割和评估指标的标准化评估框架。多模态数据集包括广泛的详细临床数据，包括分诊信息、先前诊断和药物、持续测量的生命体征、心电图和光电信号波形、整个访问期间的医嘱和药物管理、成像研究的自由文本报告、急诊诊断、处理和随后再访的信息。我们提供了每个预测任务的性能基准，以便评估多模态、多任务模型。我们相信 MC-BEC 将鼓励研究人员开发更有效、具有普适性和易获得性的多模态临床数据基础模型。

Nov, 2023