关键词benchmarks
搜索结果 - 159
- CANDY:基于动态数据插入的连续近似最近邻搜索的基准PDF4 days ago
- 常识因果关系的奥德赛:从基础指标到前沿推理PDF5 days ago
- Dysca: LVLMs 感知能力评估的动态可扩展基准PDF5 days ago
- TabReD:一个野外表格机器学习基准PDF5 days ago
- AMBROSIA: 将模棱两可的问题解析为数据库查询的基准测试PDF5 days ago
- 评估用于大型视觉语言模型的幻觉基准的质量PDF8 days ago
- AudioBench:一个音频大语言模型通用基准测试PDF9 days ago
- MMBigCodeBench:多样化函数调用和复杂指令的代码生成基准PDF10 days ago
- 通过自适应取样实现大型语言模型和文本到图像模型的数据高效评估PDF11 days ago
- 体育智能:通过问题回答从文本到视频评估语言模型对体育理解能力PDF11 days ago
- 图像能否代表千言万语?深入探究视觉语言模型的空间推理PDF11 days ago
- TAGLAS: 在大规模图和语言模型时代的文本属性图数据集图集PDF12 days ago
- 大语言模型时代的数据中心化人工智能PDF12 days ago
- 推理时去污:重复使用泄露的基准测试用于大型语言模型评估PDF12 days ago
- 代码生成评估的基准和指标:一项关键性回顾PDF14 days ago
- 从众包数据到高质量基准:Arena-Hard 和 BenchBuilder 流程PDF15 days ago
- 长代码竞技场:长上下文代码模型的一组基准PDF15 days ago
- 任务问我PDF15 days ago
- 通过知识暴露增强异常检测泛化性能:增强方法的双重效应PDF17 days ago
- BiVLC: 通过文本到图像检索扩展视觉 - 语言组合性评估PDF18 days ago
Prev