benchmark tests | BriefGPT - AI 论文速递

关键词benchmark tests

搜索结果 - 5

AI 科学家的 “图灵测试
通过提出一个 “AI 科学家的图灵测试” 来评估 AI 代理能否独立地进行科学研究，这篇论文在提供特定问题的交互式库或数据集的前提下，提出了七个评估 AI 代理在各个科学领域中进行突破性发现能力的基准测试。这些基准测试旨在建立 AI 在科学
PDFa month ago
多项式混沌扩展高斯过程
在复杂和未知的过程中，全局模型通常无法在局部区域提供准确的预测。为解决这个问题，本研究介绍了一种新的机器学习方法：多项式混沌扩展高斯过程（PCEGP），利用多项式混沌扩展（PCE）计算高斯过程（GP）的输入依赖超参数。该方法提供了一种数学解
PDF2 months ago
MultiSum：用于视频的多模式摘要和缩略图生成的数据集
通过创建包含视频和文本内容的人工验证摘要、17 个主分类和 170 个子分类的全面的数据集 MultiSum dataset，本文针对现有公共 MSMO 数据集的限制进行研究，进行了基准测试，并推出了数据收集工具和开放源代码资源以促进透明度
PDFa year ago
NorBench -- 挪威语言模型基准测试
NorBench 提供一套简化的 NLP 任务和探针，并引入了一系列新的挪威语言模型（包括编码器和编码器解码器），最后对其性能和其他现有的 LMs 在 NorBench 的不同基准测试中进行了比较和分析。
PDFa year ago
在 NVIDIA Jetson 上运行您的视觉惯性测距：一个微型飞行器的基准测试
本文在 NVIDIA Jetson 平台上针对机载摄像头的不同算法，进行了包括单目和双目覆盖视觉里程计（VO）和视觉惯性里程计（VIO）等方面的基准测试，并发布了 KAIST VIO 数据集进行计算机视觉和机器人应用。
PDF3 years ago