benchmarking | BriefGPT - AI 论文速递

关键词benchmarking

搜索结果 - 246

阿塞拜疆语开放基础模型
本研究论文介绍了针对阿塞拜疆语的多语种大型语言模型的开源基础模型，包括大规模文本语料库、仅编码器语言模型的系列以及用于评估该模型的标注数据集，并对支持阿塞拜疆语的所有主要开源模型进行了广泛评估。
PDF4 days ago
μ-Bench: 显微镜理解的视觉 - 语言基准
通过介绍一个专家精选的基准测试集 μ-Bench，评估了最新的生物医学、病理学和通用视觉语言模型在各种生物学图像识别任务上的表现，发现当前模型在所有类别上都存在困难，甚至在识别显微镜模态等基本任务上表现不佳。在特定显微镜领域进行微调可能导致
PDF5 days ago
ACLFineSurE: 利用 LLMs 进行细粒度总结评估
利用大型语言模型 FineSurE，我们针对文本摘要任务提出了一种细粒度评估方法，该方法在完成度、简洁度和忠实度等多个维度上对摘要性能进行评估，并在各种开源和专有的大型语言模型作为 FineSurE 的基础上进行了广泛的基准测试，改进了摘要
PDF5 days ago
轻量级基于嵌入的推荐系统的全面性能基准测试
这项研究通过全面的基准测试过程，对轻量级嵌入式推荐系统（LERSs）的性能、效率和跨任务可转移性进行了调查，并提出了一种高效的嵌入式压缩方法，采用幅度剪枝，克服了现有复杂 LERSs 方法的竞争力，并揭示了 LERSs 在协同过滤和基于内容
PDF11 days ago
PISTOL: LLMs 结构解学的数据集编译流程
为了推动现有 LLMs 遗忘方法的发展并解决其局限性，本文提出了 PISTOL 管道来编制多场景数据集用于基准测试结构化 LLMs 遗忘，并使用 PISTOL 生成的样本数据集进行了四种不同遗忘方法在 Llama2-7B 和 Mistral
PDF12 days ago
NAVSIM：数据驱动的无反应自主车辆模拟与基准测试
在这篇论文中，我们介绍了一种介于开环评估和闭环评估之间的评估范式，即使用大型数据集与非反应式模拟器相结合，实现大规模真实世界基准测试。我们展示了该方法在衡量终到终自动驾驶时更好地与闭环评估对齐，并在 CVPR 2024 的新竞赛中取得了一些
PDF15 days ago
CheMFi：多样分子的量子化学特性多级数据集
提供了一个综合的多保真度数据集 CheMFi，其中包括机器学习、量子化学、多保真度机器学习方法、基于 TD-DFT 的不同保真度数据集（STO-3G，3-21G，6-31G，def2-SVP 和 def2-TZVP）以及用于基准测试的多保真
PDF16 days ago
朝向稳健评估：大语言模型时代开放领域问答数据集和度量的综合分类
本研究通过对 52 个数据集和 20 种评估技术进行综述，详细研究了当前开放域问题回答领域的现状，提出了一种包含问题类型的多模态数据集新分类法，并对评估指标进行结构化整理和批判性分析，旨在为现代问答系统的强大评估提供框架，并指出了当前的挑战
PDF17 days ago
Job-SDF：职业技能需求预测和基准的多粒度数据集
在迅速发展的就业市场中，技能需求预测对于政策制定者和企业来说至关重要，因为它使其能够预测和适应变化，确保劳动力技能与市场需求相吻合，从而提高生产力和竞争力。然而，缺乏全面的数据集对于研究和这一领域的进展存在重大挑战。为了填补这一差距，我们提
PDF19 days ago
用于生成可积表达式的 Liouville 生成器
我们提出了一种名为 LIOUVILLE 方法的生成可积函数的方法，它基于 Liouville 的定理和 Parallel Risch 算法，用于在计算代数中创建全面的数据集，并且能够产生复杂且逼真的可积函数，可用于符号积分的基准测试或机器学
PDF19 days ago
LLM 检测的基准测试：比较两种竞争方法
本文概述了 LLM 文本识别领域的研究，介绍了不同的方法和已实施的检测器。此外，该文章重点讨论了检测器的基准测试，并指出虽然有许多用于 LLM 生成文本识别的软件产品，但对于像 ChatGPT 这样的 LLM 来说，识别质量（识别率）尚不清
PDF19 days ago
WildVision：使用人类偏好评估在野外的视觉语言模型
最近在视觉语言模型（VLMs）中取得的突破强调了在真实世界中多模态交互中对人类偏好的基准测试的必要性。为了弥补这一差距，我们推出了 WildVision-Arena（WV-Arena），这是一个在线平台，收集人类偏好以评估 VLMs。我们通
PDF20 days ago
基准评估光谱图神经网络：对效果和效率的全面研究
最近在图神经网络领域中，频谱图神经网络因其在频域捕捉图信号的特点而受到广泛关注，展示出在特定任务中的有希望的能力。然而，对于评估其频谱特征的系统研究还很少。此观点论文通过对超过 30 个包含 27 个相应滤波器的频谱图神经网络进行广泛的基准
PDF22 days ago
高保真模型提取中超越缓慢标志
该研究评估了对于在标准基准上训练的模型使用 Carlini 等人 [1] 进一步加强的参数提取方法的可行性，引入了统一的代码库并发现计算工具可以显著影响性能；通过识别更容易和更难提取的神经元，开发了进一步的优化方案，将提取权重值的效率提高了
PDF22 days ago
SciKnowEval: 评估大规模语言模型的多级科学知识
大型语言模型（LLMs）在科学研究中的广泛应用需要先进的评估标准来全面评估它们对科学知识的理解和应用。为了解决这个问题，我们引入了 SciKnowEval 基准，这是一个新颖的框架，从五个渐进的科学知识水平对 LLMs 进行系统评估：广泛学
PDF23 days ago
ECBD: NLP 的证据中心基准设计
综合证据为中心的基准设计（ECBD）框架确定角色，以帮助从案例研究中收集与能力相关的证据，同时发现了基准设计和文档编写的常见趋势可能会威胁基准测试的有效性。
PDF23 days ago
我们在忘却方面取得进展吗？来自首个 NeurIPS 忘却竞赛的发现
我们提供了第一个关于 unlearning 的 NeurIPS 竞赛结果，分析了顶尖解决方案并深入讨论了 benchmarking 和算法开发在这一重要领域的进展。
PDF23 days ago
MobileAgentBench: 移动 LLM 代理的高效且用户友好的基准测试
通过提出 MobileAgentBench 这一高效且用户友好的基准测试工具，对现有移动代理进行全面和系统性的性能比较，以解决应用程序状态无穷和可行操作序列定义模糊的挑战。
PDF24 days ago
TopoBenchmarkX：拓扑深度学习基准测试框架
TopoBenchmarkX 是一个模块化的开源库，旨在标准化基于拓扑的深度学习的基准测试，并加速研究。它将拓扑深度学习的流程映射为一系列独立和模块化的组件，包括数据加载和处理、模型训练、优化和评估。TopoBenchmarkX 的关键特点
PDFa month ago
CLoG: 图像生成模型的持续学习基准测试
在人工智能中，持续学习（Continual Learning）是一个重要的挑战，旨在模拟人类不断获得知识和技能的能力。本研究将关注点从基于分类任务的持续学习转移到生成模型的持续学习（CLoG）。研究通过对比传统的基于分类任务的持续学习，系统
PDFa month ago