benchmarking | BriefGPT - AI 论文速递

关键词benchmarking

搜索结果 - 243

轻量级基于嵌入的推荐系统的全面性能基准测试
这项研究通过全面的基准测试过程，对轻量级嵌入式推荐系统（LERSs）的性能、效率和跨任务可转移性进行了调查，并提出了一种高效的嵌入式压缩方法，采用幅度剪枝，克服了现有复杂 LERSs 方法的竞争力，并揭示了 LERSs 在协同过滤和基于内容
PDF7 days ago
PISTOL: LLMs 结构解学的数据集编译流程
为了推动现有 LLMs 遗忘方法的发展并解决其局限性，本文提出了 PISTOL 管道来编制多场景数据集用于基准测试结构化 LLMs 遗忘，并使用 PISTOL 生成的样本数据集进行了四种不同遗忘方法在 Llama2-7B 和 Mistral
PDF8 days ago
NAVSIM：数据驱动的无反应自主车辆模拟与基准测试
在这篇论文中，我们介绍了一种介于开环评估和闭环评估之间的评估范式，即使用大型数据集与非反应式模拟器相结合，实现大规模真实世界基准测试。我们展示了该方法在衡量终到终自动驾驶时更好地与闭环评估对齐，并在 CVPR 2024 的新竞赛中取得了一些
PDF11 days ago
CheMFi：多样分子的量子化学特性多级数据集
提供了一个综合的多保真度数据集 CheMFi，其中包括机器学习、量子化学、多保真度机器学习方法、基于 TD-DFT 的不同保真度数据集（STO-3G，3-21G，6-31G，def2-SVP 和 def2-TZVP）以及用于基准测试的多保真
PDF12 days ago
朝向稳健评估：大语言模型时代开放领域问答数据集和度量的综合分类
本研究通过对 52 个数据集和 20 种评估技术进行综述，详细研究了当前开放域问题回答领域的现状，提出了一种包含问题类型的多模态数据集新分类法，并对评估指标进行结构化整理和批判性分析，旨在为现代问答系统的强大评估提供框架，并指出了当前的挑战
PDF13 days ago
Job-SDF：职业技能需求预测和基准的多粒度数据集
在迅速发展的就业市场中，技能需求预测对于政策制定者和企业来说至关重要，因为它使其能够预测和适应变化，确保劳动力技能与市场需求相吻合，从而提高生产力和竞争力。然而，缺乏全面的数据集对于研究和这一领域的进展存在重大挑战。为了填补这一差距，我们提
PDF15 days ago
用于生成可积表达式的 Liouville 生成器
我们提出了一种名为 LIOUVILLE 方法的生成可积函数的方法，它基于 Liouville 的定理和 Parallel Risch 算法，用于在计算代数中创建全面的数据集，并且能够产生复杂且逼真的可积函数，可用于符号积分的基准测试或机器学
PDF15 days ago
LLM 检测的基准测试：比较两种竞争方法
本文概述了 LLM 文本识别领域的研究，介绍了不同的方法和已实施的检测器。此外，该文章重点讨论了检测器的基准测试，并指出虽然有许多用于 LLM 生成文本识别的软件产品，但对于像 ChatGPT 这样的 LLM 来说，识别质量（识别率）尚不清
PDF15 days ago
WildVision：使用人类偏好评估在野外的视觉语言模型
最近在视觉语言模型（VLMs）中取得的突破强调了在真实世界中多模态交互中对人类偏好的基准测试的必要性。为了弥补这一差距，我们推出了 WildVision-Arena（WV-Arena），这是一个在线平台，收集人类偏好以评估 VLMs。我们通
PDF16 days ago
基准评估光谱图神经网络：对效果和效率的全面研究
最近在图神经网络领域中，频谱图神经网络因其在频域捕捉图信号的特点而受到广泛关注，展示出在特定任务中的有希望的能力。然而，对于评估其频谱特征的系统研究还很少。此观点论文通过对超过 30 个包含 27 个相应滤波器的频谱图神经网络进行广泛的基准
PDF18 days ago
高保真模型提取中超越缓慢标志
该研究评估了对于在标准基准上训练的模型使用 Carlini 等人 [1] 进一步加强的参数提取方法的可行性，引入了统一的代码库并发现计算工具可以显著影响性能；通过识别更容易和更难提取的神经元，开发了进一步的优化方案，将提取权重值的效率提高了
PDF18 days ago
SciKnowEval: 评估大规模语言模型的多级科学知识
大型语言模型（LLMs）在科学研究中的广泛应用需要先进的评估标准来全面评估它们对科学知识的理解和应用。为了解决这个问题，我们引入了 SciKnowEval 基准，这是一个新颖的框架，从五个渐进的科学知识水平对 LLMs 进行系统评估：广泛学
PDF19 days ago
ECBD: NLP 的证据中心基准设计
综合证据为中心的基准设计（ECBD）框架确定角色，以帮助从案例研究中收集与能力相关的证据，同时发现了基准设计和文档编写的常见趋势可能会威胁基准测试的有效性。
PDF19 days ago
我们在忘却方面取得进展吗？来自首个 NeurIPS 忘却竞赛的发现
我们提供了第一个关于 unlearning 的 NeurIPS 竞赛结果，分析了顶尖解决方案并深入讨论了 benchmarking 和算法开发在这一重要领域的进展。
PDF19 days ago
MobileAgentBench: 移动 LLM 代理的高效且用户友好的基准测试
通过提出 MobileAgentBench 这一高效且用户友好的基准测试工具，对现有移动代理进行全面和系统性的性能比较，以解决应用程序状态无穷和可行操作序列定义模糊的挑战。
PDF20 days ago
TopoBenchmarkX：拓扑深度学习基准测试框架
TopoBenchmarkX 是一个模块化的开源库，旨在标准化基于拓扑的深度学习的基准测试，并加速研究。它将拓扑深度学习的流程映射为一系列独立和模块化的组件，包括数据加载和处理、模型训练、优化和评估。TopoBenchmarkX 的关键特点
PDF23 days ago
CLoG: 图像生成模型的持续学习基准测试
在人工智能中，持续学习（Continual Learning）是一个重要的挑战，旨在模拟人类不断获得知识和技能的能力。本研究将关注点从基于分类任务的持续学习转移到生成模型的持续学习（CLoG）。研究通过对比传统的基于分类任务的持续学习，系统
PDF25 days ago
CommonPower: 为智能电网超级加速机器学习
通过 CommonPower，我们提供了第一个模块化框架，可以用来实现一个安全的增强学习控制器，并且涵盖了单一代理和多代理的训练算法，以及基于符号方程的模型预测控制方法。
PDFa month ago
面部图像合成的特征提取网络分析
对于评估人脸图像生成的真实性，研究人员关注生成对抗网络等新技术的进展，本研究通过调查不同特征提取器（InceptionV3、CLIP、DINOv2 和 ArcFace）的行为，考虑多种指标（FID、KID、Precision＆Recall）
PDFa month ago
支架切分高估虚拟筛选表现
通过使用人工智能模型指导广泛化合物库的虚拟筛选是一种高效的早期药物发现方法。然而，传统的随机数据拆分不符合虚拟筛选库的真实情况，我们的研究发现更真实的基于 UMAP 的聚类数据拆分可以更准确地评估虚拟筛选模型的性能。
PDFa month ago