关键词benchmarks
搜索结果 - 160
- 生物序列优化算法的闭合形式测试函数PDF8 days ago
- CANDY:基于动态数据插入的连续近似最近邻搜索的基准PDF8 days ago
- 常识因果关系的奥德赛:从基础指标到前沿推理PDF9 days ago
- Dysca: LVLMs 感知能力评估的动态可扩展基准PDF9 days ago
- TabReD:一个野外表格机器学习基准PDF9 days ago
- AMBROSIA: 将模棱两可的问题解析为数据库查询的基准测试PDF9 days ago
- 评估用于大型视觉语言模型的幻觉基准的质量PDF12 days ago
- AudioBench:一个音频大语言模型通用基准测试PDF13 days ago
- MMBigCodeBench:多样化函数调用和复杂指令的代码生成基准PDF14 days ago
- 通过自适应取样实现大型语言模型和文本到图像模型的数据高效评估PDF15 days ago
- 体育智能:通过问题回答从文本到视频评估语言模型对体育理解能力PDF15 days ago
- 图像能否代表千言万语?深入探究视觉语言模型的空间推理PDF15 days ago
- TAGLAS: 在大规模图和语言模型时代的文本属性图数据集图集PDF16 days ago
- 大语言模型时代的数据中心化人工智能PDF16 days ago
- 推理时去污:重复使用泄露的基准测试用于大型语言模型评估PDF16 days ago
- 代码生成评估的基准和指标:一项关键性回顾PDF18 days ago
- 从众包数据到高质量基准:Arena-Hard 和 BenchBuilder 流程PDF19 days ago
- 长代码竞技场:长上下文代码模型的一组基准PDF19 days ago
- 任务问我PDF19 days ago
- 通过知识暴露增强异常检测泛化性能:增强方法的双重效应PDF21 days ago
Prev