benchmarks | BriefGPT - AI 论文速递

关键词benchmarks

搜索结果 - 159

CANDY：基于动态数据插入的连续近似最近邻搜索的基准
CANDY 是一个定制的连续近似最近邻搜索基准，能够全面评估广泛的 AKNN 算法，并通过集成机器学习驱动的推断和改进的距离计算方法来提高检索效果和减少计算开销。实验证明，相对简单的 AKNN 基线通常在召回率和延迟方面超越更复杂的替代方案
PDF4 days ago
常识因果关系的奥德赛：从基础指标到前沿推理
通过综合 200 篇代表性文献的见解，我们的综合调查桥接了对常识因果推理的认知差距，并在共识因果关系的分类、基准、获取方法、定性推理和定量测量方面提供了系统的概述、最新研究进展、新手们的实用指南以及未来研究方向的重要提示。
PDF5 days ago
Dysca: LVLMs 感知能力评估的动态可扩展基准
通过利用合成图像，我们提出了一个动态可扩展的基准测试 Dysca，评估大规模视觉语言模型的感知能力，并在多种图像风格和场景条件下进行了评估。
PDF5 days ago
TabReD：一个野外表格机器学习基准
本文研究了标准机器学习中现成的表格式基准数据集存在的问题，并引入了 TabReD 数据集以填补学术基准数据集的不足之处，以此评估不同 ML 模型在时间演化的数据环境中的表现。结果表明，基于时间的数据划分与学术基准数据集中的随机划分会导致不同
PDF5 days ago
AMBROSIA: 将模棱两可的问题解析为数据库查询的基准测试
我们引入了一个名为 AMBROSIA 的新基准，旨在帮助发展能够识别和解释含有歧义请求的文本至 SQL 解析器。我们的数据集包含展示三种不同类型（范围、附属、模糊）歧义及其解释和相应 SQL 查询的问题。通过从头开始生成数据库的控制生成方法
PDF5 days ago
评估用于大型视觉语言模型的幻觉基准的质量
大规模视觉语言模型（LVLMs）的幻觉问题是当前研究的主要关注领域，本研究提出了一种用于评估幻觉质量的基准测量框架（HQM），通过可靠性和有效性的指标对现有幻觉基准进行评估，并构建了一种高质量的 LVLMs 幻觉基准（HQH）。研究在多个代
PDF8 days ago
AudioBench：一个音频大语言模型通用基准测试
通过提供相关数据集和评估指标，我们引入了 AudioBench，这是一个旨在评估语音大型语言模型（AudioLLMs）的新基准。我们在研究中评估了四个模型的能力，并发现没有单一模型在所有任务中都表现出色。我们概述了 AudioLLMs 的研
PDF9 days ago
MMBigCodeBench：多样化函数调用和复杂指令的代码生成基准
基于大型语言模型 (LLMs) 的自动化软件工程在最近的进展中得到了极大的增强。尽管当前的基准测试表明 LLMs 可以完成各种软件工程任务，如人类开发人员一样，但它们的大多数评估仅限于简短的、自包含的算法任务。解决具有挑战性和实际意义的编程
PDF10 days ago
通过自适应取样实现大型语言模型和文本到图像模型的数据高效评估
SubLIME 是一个数据高效评估框架，利用自适应采样技术，如聚类和质量导向方法，创建代表性的基准子集，以确保与完整数据集在模型排名方面具有高皮尔逊相关系数。该框架在评估低资源语言模型和文本到图像模型方面提供了一种灵活且经济高效的解决方案。
PDF11 days ago
体育智能：通过问题回答从文本到视频评估语言模型对体育理解能力
通过对主流大型语言模型在各种体育任务上进行广泛评估，我们揭示了自然语言处理中体育理解的关键挑战，并提出了一个基于现有体育数据集的全面概述的新基准，以帮助确定未来的研究优先事项。
PDF11 days ago
图像能否代表千言万语？深入探究视觉语言模型的空间推理
大型语言模型和视觉 - 语言模型在广泛的任务和领域表现出了显著的优异性能，但空间理解和推理（人类认知的基本组成部分）仍然未得到充分利用。通过开发多方面的空间推理基准，如关系理解、导航和计数，我们对具有竞争力的语言模型和视觉 - 语言模型进行
PDF11 days ago
TAGLAS: 在大规模图和语言模型时代的文本属性图数据集图集
TAGLAS 是一个包含文字属性图数据集和基准测试的图谱，其中包括超过 23 个 TAG 数据集，涵盖引文图到分子图的不同领域和节点分类到图问题回答的不同任务。TAGLAS 的数据集具有统一的节点和边缘文字特征格式，允许在不同领域的多个数据
PDF12 days ago
大语言模型时代的数据中心化人工智能
本篇论文提出了以数据为中心的人工智能研究视角，着重于大型语言模型。我们首先观察到在 LLM 的发展阶段（如预训练和微调）和推理阶段（如上下文学习）中，数据起着重要作用，但却在研究社区中受到了不对称的关注。我们确定了四个以数据为中心的具体情景
PDF12 days ago
推理时去污：重复使用泄露的基准测试用于大型语言模型评估
我们提出了推理时间去污染（ITD）方法，通过检测和重写泄露样本而不改变它们的难度，来降低由于记忆泄露基准测试而导致的性能夸大影响。实验结果表明，ITD 方法在 GSM8K 上可以将夸大的准确性降低 22.9％，在 MMLU 上可以降低 19
PDF12 days ago
代码生成评估的基准和指标：一项关键性回顾
对大型语言模型在编程任务中的评估工作进行了关键综述，着重讨论了现有工具的评估中使用的基准和度量标准，并提出了进一步研究的方向。
PDF14 days ago
从众包数据到高质量基准：Arena-Hard 和 BenchBuilder 流程
通过 BenchBuilder 工具从 Chatbot Arena 收集的大量数据中提取高质量的基准测试，从而为开发者提供了一个有价值的工具，使他们能够轻松地从广泛的数据中提取高质量的基准测试，进而提升评估基准。
PDF15 days ago
长代码竞技场：长上下文代码模型的一组基准
通过引入 Long Code Arena 作为一套六个代码处理任务的基准，我们旨在填补超出单个上下文文件的代码处理基准的空白。这些任务涵盖了代码处理的不同方面：基于库的代码生成、CI 构建修复、项目级代码补全、提交消息生成、错误定位和模块摘
PDF15 days ago
任务问我
Task-Me-Anything 是一个针对大型多模式语言模型（MLMs）的基准生成引擎，它可以根据用户需求生成定制化的基准，并通过在计算预算内高效地算法地解决用户对 MLM 性能的查询。它包含 113K 图像、10K 视频、2K 3D 物
PDF15 days ago
通过知识暴露增强异常检测泛化性能：增强方法的双重效应
通过集成外部知识以了解概念动态和区分诱导语义偏移的转换，我们提出了一种名为 Knowledge Exposure（KE）的新方法来增强模型的泛化能力，在新的测试协议上对 CIFAR-10、CIFAR-100 和 SVHN 进行评估，表现优于
PDF17 days ago
BiVLC: 通过文本到图像检索扩展视觉 - 语言组合性评估
双向视觉语言组合性 (BiVLC) 数据集用于添加由合成文本生成的合成负向图像，从而产生两个图像到文本检索示例和两个文本到图像检索示例，发现当前多模态模型在文本到图像方向上表现不佳。
PDF18 days ago