- 面部图像合成的特征提取网络分析
对于评估人脸图像生成的真实性,研究人员关注生成对抗网络等新技术的进展,本研究通过调查不同特征提取器(InceptionV3、CLIP、DINOv2 和 ArcFace)的行为,考虑多种指标(FID、KID、Precision&Recall) - 支架切分高估虚拟筛选表现
通过使用人工智能模型指导广泛化合物库的虚拟筛选是一种高效的早期药物发现方法。然而,传统的随机数据拆分不符合虚拟筛选库的真实情况,我们的研究发现更真实的基于 UMAP 的聚类数据拆分可以更准确地评估虚拟筛选模型的性能。
- WebSuite:系统评估网络机器人失败的原因
WebSuite 是第一个用于评估为何代理失败的通用 Web 代理的诊断基准,并通过将任务失败分解成特定的操作失败,针对 Web 代理性能的可改进之处进行了详细评估,以及需要更多关注代理失败方面的基准测试。
- MDIW-13:一个新的多语言和多脚本数据库与脚本识别基准
提供了一个新的用于脚本识别算法比较的数据库,其中包含来自多个不同脚本的印刷和手写文件。该数据库可用于进行各种基准测试,并提供了不同级别和类型的脚本识别结果,为未来的研究提供基础。
- 训练最先进的激光雷达分割模型的实证研究
在自动驾驶领域,精确分割 LiDAR 数据对于理解复杂的 3D 环境至关重要。为了解决传统方法中零散、独立的代码库的问题,以及统一推进和公平比较模型的问题,我们引入了 MMDetection3D-lidarseg。作为一种综合性工具箱,它旨 - 实时物体检测模型的复制研究和基准测试
本研究旨在检验实时目标检测模型的可重复性和基准测试。通过比较大量的目标检测模型在多个显卡上的精度和推理速度,我们还重现了 DETR、RTMDet、ViTDet 和 YOLOv7 等模型,并提出了一个统一的训练和评估流程,以更好地比较模型。然 - 脑电图转文本模型是否有效?
通过对开放词汇的脑电图到文本翻译模型进行关键性分析,发现以往的研究往往在评估过程中使用隐式教师强迫来人为提高性能指标,且缺乏对纯噪声输入下模型性能的关键性基准比较。我们提出了一种可区分真正从脑电信号中学习与仅仅记忆训练数据的模型的方法。我们 - 评估非分类别三维 CAD 模型上的深度聚类算法
介绍了针对大规模非分类 3D CAD 模型的深度聚类算法的基准测试和评估工作。使用七种基准深度聚类方法,提出了一种新颖且可行的基于集成的聚类比较方法,以解决非分类数据的聚类方法评估所面临的挑战。这项工作是首次直接针对用于 3D 形状的深度聚 - 基于贝叶斯优化和图文模型的图像分类器失效的高效探索
现实世界中应谨慎使用图像分类器,验证集上的性能可能不能反映出真实世界中的性能。尤其是对那些在训练过程中经常遇到的条件,分类器可能表现良好,但对其他不常见的条件可能表现不佳。我们假设最近在文本到图像生成模型方面的进展使其成为对计算机视觉模型( - 一个以用户为中心的评估大型语言模型的基准
我们提出了从用户角度对大型语言模型进行基准测试,旨在更好地反映实际用户需求,并且我们还构建了用户报告场景数据集以及对 10 个语言模型服务在满足用户需求方面的基准测试。
- CVPR如何为语义分割基础模型进行基准测试?
最近的视觉基础模型在各种任务中展示了高效性,但需要有监督的精调才能有效地执行语义分割任务。本文的主要目标是研究如何对视觉基础模型进行语义分割的基准测试,通过在不同设置下对各种模型进行细调并评估各个设置对性能和训练时间的影响,提出了建议的基准 - nnU-Net 重新审视:对 3D 医学图像分割的严格验证的呼吁
通过细致避免使用不充分的基线、不足够的数据集和忽视计算资源等常见验证缺陷,我们对当前分割方法进行了全面而彻底的基准测试,结果表明:1)采用包括 ResNet 和 ConvNeXt 变体在内的基于 CNN 的 U-Net 模型,2)使用 nn - 一个大规模评估的语音基础模型
我们建立了语音处理通用性能基准(SUPERB),使用冻结的基础模型和任务专门化的轻量级预测头,证实了基础模型范式在语音处理中的潜力和我们的多任务框架的简单而有效性,具备竞争力的泛化能力。我们还进行了一系列分析,深入了解 SUPERB 和语音 - 从原型科学到认识论单一文化:基准测试为深度学习革命铺平了道路
在过去的十年中,AI 研究严重依赖于构建越来越大的深度学习模型,这一方法在科学技术方面取得了令人难以置信的成就,但也阻碍了 AI 克服与解释能力、伦理危害和环境效率有关的长期限制。通过定性访谈和计算分析,我们对 AI 研究的三段历史追溯了这 - ACLAgentQuest: 一个模块化的基准测试框架,用于衡量和提升 LLM 代理的进展
通过构建可扩展的模块化基准和评估指标,提出了 AgentQuest 框架用于追踪和改进大规模语言模型代理在解决复杂多步骤推理任务中的性能。
- 朝着帕累托最优吞吐量的小语言模型服务
通过实验和分析,本文旨在对小型语言模型的推理性能和能量效率进行基准测试,并得出结论说明模型复制可以有效提高服务小型语言模型时的资源利用率。
- 推进具有偏好树的 LLM 推理通才
Eurus 是一套针对推理进行优化的大型语言模型,通过基于 Mistral-7B 和 CodeLlama-70B 的微调,在数学、代码生成和逻辑推理问题的多种基准测试中取得了领先的结果。通过在五个任务上全面进行 12 项测试对比,Eurus - 视频帧插值基准测试
我们提出了一个基准测试,通过利用计算它们的提交网站建立一致的误差度量,通过分析插值质量与各种像素属性(如运动幅度)的关系来提供见解,并通过利用合成数据坚持线性假设来设计精心设计的测试集,并以一致的方式评估计算效率。
- 钢琴乐谱的实用端到端光学音乐识别
使用端到端模型和 Linearized MusicXML 格式进行 Optical Music Recognition (OMR),并通过与已发布的数据集进行评估和对比,超过了目前的最佳结果。
- Entity6K:用于真实世界实体识别的大型开放域评估数据集
开放域现实世界实体识别的评估数据集 Entity6K 对于评估模型的实体识别能力具有重要的作用。