- KiVA:用于测试大型多模态模型的儿童启发式视觉类比
通过与人类成年人和儿童进行对比,本文研究了大型多模态模型(LMMs)中的视觉类比推理。通过构建一个全新的基准测试,评估 LMMs 在视觉类比推理上的性能,并将其与儿童和成年人进行比较。结果发现,尽管像 GPT-4V、LLaVA-1.5 和 - LKCell:使用大卷积核高效进行细胞核实例分割
我们提出了 LKCell,一种高准确度和高效的细胞核分割方法,通过大卷积核实现计算效率较高的大感受野,在细胞核分割任务中取得了最先进的结果。
- PERSONA: 一个可重复的多重对齐测试平台
通过人口普查数据,我们引入了多维度用户模型 PERSONA,包含 1586 个具有不同人口统计学属性和特殊属性的合成人物。通过大规模评估数据集,我们系统评估了语言模型在扮演多样化用户角色方面的能力,为多元化对齐方法建立了基准 PERSONA - HumanVid:揭开相机可控人体图像动画的训练数据之谜
人像动画需要生成角色照片的视频,以实现用户控制并发挥视频和电影制作的潜力。本研究提出了 HumanVid 数据集,该数据集是为了人像动画而设计的首个大规模高质量数据集,其中包括真实世界和合成数据,用于训练模型并建立基准,以探索人物姿势和相机 - MemBench: 基于记忆的图像触发提示数据集用于扩散模型
发表了一个用于评估图像记忆化解决方法的第一个基准测试,通过在 MemBench 上的评估,验证了现有图像记忆化解决方法在扩散模型中的应用性能仍然不足。
- BenchIE^FL: 一个人工重新标注的基于事实的开放信息抽取基准
Open Information Extraction (OIE) 的一个新的基准,$ extit {BenchIE}^{FL}$,全面符合 BenchIE 原则并包含较少的错误、遗漏和不足,能够对 OIE 提取器的实际性能得出深入的结论。
- CompBench:用于多模态 LLM 的比较推理基准
通过 CompBench 多模态大语言模型基准测试,揭示了近期多模态大语言模型的比较能力的明显缺陷,为未来提升多模态大语言模型的比较能力奠定了坚实基础。
- 时间序列预测能否自动化?基准和分析
该研究提出了一种综合评估和排名时间序列预测方法的基准方法,在机器学习和人工智能领域,通过比较分析 AutoGluon-Timeseries 和 sktime 两个时间序列预测框架的众多方法的性能,为选择最合适的预测方法提供了决策参考和工具。
- 在 CLIP 时代重新思考领域适应和泛化
本文通过简单的领域先验知识提升 CLIP 在特定领域的零样本识别能力,并创建了基于 CLIP 的零样本适应和伪标记自训练的基准,同时提出了改进 CLIP 的任务泛化能力,从多个未标记领域中进行学习。我们相信这些发现在 CLIP 时代彻底改变 - OCTrack: 开放语料库多目标跟踪基准
我们研究了开放语料库多目标跟踪(OCMOT)的一个新颖而实用的问题,它将 MOT 扩展到定位、关联和识别既见过(基本)类别又未见过(新奇)类别的通用目标,并且没有类别文本列表作为提示。为了研究这个问题,首要任务是构建一个基准。在这项工作中, - 联合还是分离:混合训练策略用于早停模型
通过研究早期退出方法的训练策略,本研究对早期退出的性能和效率进行了理论和实证分析,并评估其在不同架构和数据集上的适用性。
- ECCO: 如何在不牺牲功能正确性的前提下提高模型生成代码的效率?
本文介绍了 ECCO,一种可复现的基准测试,用于通过自然语言(NL)代码生成和基于历史的代码编辑评估程序的效率。我们调查了三种最有前途的现有 LLM 方法:上下文学习,迭代改进与执行或 NL 反馈,以及基于执行和编辑历史的微调。虽然大多数方 - SpeciaLex:一种上下文特定词汇学习的基准
通过介绍 SpeciaLex,本文提供了一个用于评估语言模型在遵循专业词典约束方面能力的基准,并对 15 个开源和闭源大型语言模型进行了实证评估,讨论了模型规模、开放性、设置和最新性等因素对性能的影响。
- 通过低成本数据策略提升印度 TTS 系统在实际应用中的词汇外表现
改善低资源语言的 TTS 系统,通过使用便宜的志愿者录制训练数据中未见过的字符二元组,提高模型在未登录词上的性能。
- 爸爸就是人工智能:打破规则超越基准
人类通过遵循现有的规则和程序以及通过创造性的飞跃来解决问题。我们基于 Baba Is You 游戏开发了一个新的基准,其中代理商通过操纵环境中的物体和规则来达到指定的目标并赢得游戏。我们测试了三种最先进的多模式大型语言模型(OpenAI G - ICCV视听对齐:通过音视频对齐来实现先进的声源定位
通过综合分析现有方法、基准、评估指标和跨模态理解任务,我们提出了一个新的综合声源定位方法,该方法通过跨模态对齐策略增强跨模态交互能力,并在现有和新基准上使用新的和标准评估指标对竞争方法进行了广泛验证。
- ICML3D 多体物理环境中的亚等变强化学习
该研究提出了 Subequivariant Hierarchical Neural Networks (SHNN) 用于多实体策略学习,并提出了 Multi-entity Benchmark (MEBEN) 作为评估方法,实验结果表明 SH - 公平感知图学习基准
该研究论文提出了一个综合性基准测试,通过对十种代表性公平感知的图学习方法进行系统评估,从多个角度评估这些方法的群体公平性、个体公平性、不同公平性标准之间的平衡以及计算效率,并深入分析现有方法的优点和局限性,为公平感知的图学习方法在实际应用中 - PutnamBench: 在 Putnam 数学竞赛上评估神经定理证明器
PutnamBench 是一个多语言基准测试,用于评估神经定理证明器解决竞赛数学问题的能力,它包含了来自北美顶级本科数学竞赛 William Lowell Putnam Mathematical Competition 的 640 个定理的 - ICML评估模型偏差需要表征其错误
适当基准模型性能是重要的,以便构建更好的预测器并增加对模型正常运行的信心。我们引入了 SkewSize,它是一种捕捉模型预测中偏见的度量,能够在多类设置或开放词汇生成模型的情况下使用。SkewSize 能够突显其他指标未捕捉到的偏见,并提供