benchmarking | BriefGPT - AI 论文速递

关键词benchmarking

搜索结果 - 246

Entity6K：用于真实世界实体识别的大型开放域评估数据集
开放域现实世界实体识别的评估数据集 Entity6K 对于评估模型的实体识别能力具有重要的作用。
PDF4 months ago
SpokeN-100：一个多语言口语数字分类基准数据集
我们引入了一个新颖的、完全人工生成的适用于资源受限设备上执行的紧凑深度学习模型的性能评估和优化的基准数据集，该数据集特定用于语音识别，代表了微型深度学习领域中的一个核心挑战。SpokeN-100 数据集由 32 位不同说话者以四种不同语言（
PDF4 months ago
IndicSTR12：印度场景文字识别数据集
在印度语言这个复杂、语法和语义上更复杂的领域，由于缺乏综合的数据集，该研究提出了最大最全面的数据集 IndicSTR12，并在 12 种主要印度语言上进行了场景文本识别的性能评估，该数据集与现有的拉丁语言的数据集规模和复杂性相当，并且其多语
PDF4 months ago
经典之上？量子机器学习模型基准测试的微妙之道
通过经典模拟进行基准测试是在没有无噪声硬件之前评估量子机器学习想法的主要方法之一。然而，实验设计的巨大影响、当今可行范围内的小规模以及受量子技术商业化影响的叙事使得难以获得稳健的见解。为了促进更好的决策，我们开发了一个基于 PennyLan
PDF4 months ago
ICLR剖析样本难度：对数据中心人工智能硬度表征方法的细粒度分析
通过提出细粒度的困难类型分类和硬度分类分析工具包 (H-CAT)，全面定量评估了 13 种不同的困难特征方法在 8 种困难类型上的强弱点，同时揭示了对困难特征方法选择和未来发展的实用建议。
PDF4 months ago
私密基准测试以防止污染并提高对 LLM 的比较评估
私密基准测试是解决基准测试数据被污染或泄露的问题的解决方案，并且可以保持模型的权重私密，以确保私密基准测试的高质量。
PDF4 months ago
COLING基于算法问题的 GPT-4 评测：对提示策略的系统评估
GPT-4 在具有可控问题难度的三个算法任务中通过先进的提示技术展现了优越的准确性，证明了先进的大型语言模型在需要系统化泛化的挑战性任务中具备很强的基准性能。
PDF4 months ago
优化器的部分排序
我们提出了一个基于多个标准和各种测试函数来评估优化器的基准测试框架，利用一种新近引入的免联盟通用深度函数，充分利用次序信息，允许不可比较性，描述了所有部分次序的分布，避免了聚合的明显缺陷，可以识别产生优化器的核心或异常排名的测试函数，并评估
PDF4 months ago
ACLHypoTermQA: 用于评估 LLMs 产生假设性术语倾向的假设性术语数据集
介绍了一个自动可扩展的框架，将大型语言模型（LLM）的幻觉倾向与高效的幻觉检测相结合，提供了测试和改进 LLMs 的机会，并有潜力生成特定领域的基准数据集。
PDF4 months ago
一个评估视觉 - 语言模型中性别偏见的统一框架和数据集
通过构建统一的框架系统评估大规模视觉语言模型中的性别职业偏见，我们在不同输入输出模态下的基准测试中观察到不同的偏见程度和方向，希望我们的工作能指导未来改进视觉语言模型以学习社会上没有偏见的表示方式。
PDF5 months ago
MultiMedEval：用于评估医学视觉 - 语言模型的基准和工具包
MultiMedEval 是一个开源工具包，旨在公平且可重复评估大型医疗视觉语言模型（VLM），通过 23 个数据集、11 个医学领域的 6 个多模态任务来综合评估模型的性能，并通过广泛采纳的任务和性能指标确保模型的整体泛化能力，在 git
PDF5 months ago
医学图像协调性基准化的定量度量
图像协调是处理医学图像中不同机器和扫描协议引起的领域转变的重要预处理策略。然而，由于缺乏广泛可用的标准数据集和基准，评估协调技术的有效性一直是一个挑战。在这个背景下，我们提出了三个指标：两个用于图像强度协调的指标和一个用于维持解剖结构的指标
PDF5 months ago
Vi (E) va LLM！基于生成 AI 可视化的评估和解释概念栈
通过我们提出的评估方法和平台 EvaLLM，我们解决并评估了大型语言模型生成可视化的问题，并通过 GPT3.5-turbo with Code Interpreter 和 Llama2-70-b 模型的两个案例研究展示了相关结果。
PDF5 months ago
可解释性优化启发式算法的基准测试
介绍了一种名为 IOH-Xplainer 的软件框架，用于分析和理解各种优化算法的性能以及它们不同组件和超参数的影响，通过该框架，我们对不同算法组件和配置的影响进行了研究，为不同场景下的性能提供了深入的见解。提供了一种系统方法来评估和解释迭
PDF5 months ago
PPM：用于基准代码生成模型测试的多样化编程问题的自动生成
我们提出了编程问题合并（PPM）的概念，并提供了两种实现方法，我们使用我们的工具在两个广泛使用的数据集上，并使用八个代码生成模型将其与九种基准方法进行了比较，结果表明，与基准相比，我们的工具在生成更具挑战性、多样化和自然的编程问题方面更具有
PDF5 months ago
图像上采样方法的公平性评估
通过综合性框架对条件生成模型进行性能和公平性评估，以图像上采样作为重点应用，并引入 UnfairFace 数据集，揭示了现有方法在公平性和多样性方面的局限性。
PDF5 months ago
AgentBoard: 多轮 LLM 代理人的分析评估板
为了评估大型语言模型的能力并加快其实际应用，我们引入了 AgentBoard，一个综合性的基准测试评估框架，它不仅提供了对模型能力的深入理解，还促进了其性能的可解释性。
PDF5 months ago
基于 Mistral 的大型马来西亚语言模型用于增强本地语言理解
本研究介绍了在 32.6GB 数据集上对 Mistral 7B 进行预训练的重要进展，研究中探索了扩展上下文长度的影响，发布了具有 4096 和 32768 标记的上下文长度模型，并通过专门调优的 16384 标记的上下文长度模型 ——Ma
PDF5 months ago
深度神经网络选择性分类基准测试
通过对包含图像和表格数据的多样化数据集进行实证评估，该研究对 18 种基线模型进行基准测试，比较了它们在选择错误率、实证覆盖率、被拒绝实例类别分布以及在分布外实例上的性能等多个方面的表现，结果显示没有一个明确的最佳方法，最好的方法取决于用户
PDF5 months ago
表格数据的注意力对比学习 - 数据中心的基准测试
通过对 28 个表格数据集的广泛评估，本文介绍了在传统深度学习与机器学习基线上，在各个表格数据集上实现卓越性能的注意力和对比学习方法，以促进该领域的进一步发展。
PDF6 months ago