- ICML尺寸不变性的重要性:重新考虑用于不平衡多目标显著目标检测的指标和损失函数
本研究探讨了显著目标检测中评估指标的尺度不变性,尤其是当同一图像中存在多个不同大小的目标时。通过观察,我们发现当前的评估指标对尺寸很敏感,更倾向于关注较大的目标而忽略较小的目标。我们认为评估应该是尺度不变的,因为没有附加语义信息时,基于尺寸 - 野外文本生成三维内容调查
文献调查了最新的文本生成三维内容的方法,并详细介绍了该领域的背景、数据集、评估指标以及不同的三维表示方法。通过对生成流程的分类和优劣势的分析,为进一步探索基于文本的三维内容创建提供了启示,并指出了未来研究的几个有希望的方向。
- 建立统一的人体动作生成评估框架:指标的比较分析
发展用于人类动作生成的生成式人工智能迅速扩展,需要一个统一的评估框架。本文详细评述了八种用于人类动作生成的评估指标,突出其独特特点和不足之处。我们提出了一种标准化实践,通过一个统一的评估设置来促进一致的模型比较。此外,我们引入了一种新的度量 - 近期对话数据生成的研究进展综述
对多轮对话数据生成进行了系统综述,包括开放领域对话系统、任务导向对话系统和信息搜索对话系统,提出了一个概括对话数据生成系统主要原则的通用框架,并探讨了合成对话数据的评估指标和方法、当前领域的挑战以及未来研究的潜在方向。
- 教育计划修复基准测试
为了促进竞争方法的公平比较和标准化,该研究提出了一个新颖的教育性程序修复基准,对两个高质量的编程数据集进行整理,引入一种新的评估度量指标 rouge@k 来评估修复质量,并评估了五种最近的模型以建立基础性能。
- CVPRMVDiff: 可扩展灵活的多视图扩散用于从单视图进行 3D 物体重建
通过引入情景表示变换器和视图条件扩散模型,该论文提出了一个通用框架,用于从单个图像生成一致的多视图图像。通过多视图注意力和极线几何约束来确保三维一致性,该模型能够从仅一个图像输入生成超过基准方法在评估指标(包括 PSNR、SSIM 和 LP - ICML定位论文:无人监督时间序列异常检测的未来之路?
当前时间序列异常检测(TAD)研究中存在评估指标缺陷、不一致的基准测试实践以及对新颖深度学习模型设计选择的缺乏合理的论证。本文对 TAD 中的现状进行了批判性分析,揭示了当前研究的误导轨迹,并突出了存在问题的方法及评估实践。我们的观点主张从 - 系统评述:自动驾驶车辆中的异常检测
这篇系统综述主要研究与连接和自动驾驶车辆相关的异常检测。研究发现,神经网络(如 LSTM,CNN 和自编码器)以及单类支持向量机是最常用的人工智能算法。大多数异常检测模型使用真实世界的车辆数据进行训练,但常常人为地向数据集中注入攻击和故障等 - 动态图神经网络综述:模型、框架、基准、实验与挑战
本文通过对 81 个动态 GNN 模型、12 个动态 GNN 训练框架和常用基准进行了全面的比较分析和实验评估,在对六个标准图数据集上测试了九个代表性的动态 GNN 模型和三个框架。评估指标包括收敛精度、训练效率和 GPU 内存使用情况,从 - 统计与可解释性:一个有成效的联盟
本研究提出使用标准统计工具来解决说明性文献中普遍存在的问题,通过利用统计估计器来定义解释,从而实现理论保证和评估指标的制定,以定量评估解释的质量。此方法避免了目前文献中普遍存在的主观人为评估。此外,我们认为不确定性量化对于提供稳健可信的解释 - CVPRAutoAD III:前传 -- 回到像素
生成电影的音频描述(AD)是一项具有挑战性的任务,需要对细粒度的视觉理解和角色及其名称有意识。本文提出了两种构建与视频数据对齐的 AD 数据集的方法,并使用这些数据集构建了训练和评估数据集。我们还开发了基于 Q-former 的架构,它使用 - 神经网络特征评估中的不一致问题探究
近年来,神经网络展示出了从原始数据中识别复杂模式和关系的卓越能力。然而,理解这些黑盒模型的内部机制仍具挑战性,但对于高风险决策至关重要。我们的研究通过调查解释的基本和分布行为来解决这种困惑。此外,通过全面的模拟研究,我们展示了常见缩放和编码 - 可靠的经验式机器去学习评估:博弈论视角
这项研究提出了一种新的、可靠的方法来实证评估机器遗忘算法,为更有效的遗忘技术的发展铺平了道路。
- 基于 CNN 的解释集成用于数据集、表示和解释评估
通过合并深度分类模型生成的解释,研究人员探索了可解释人工智能的潜力,以揭示模型行为的更一致和可靠的模式,进而评估模型所学到的表示。使用选定的 Quantus 库评估指标,证明该方法在本地化和可信度方面的性能优于单个解释。
- 大型语言模型中面向组合通用语义解析的研究综述
本文对最近在分析、方法和评估方案上的进展进行了综述,为从业者和研究人员在这一领域提供了一个起点。
- 深度学习在定理证明中的调查
该论文提供了一项深度学习在定理证明中的全面调研,包括现有方法的综述、数据集和策略的详细总结、评估指标和最先进技术的性能分析,以及未来研究的挑战和发展方向的批判性讨论。该调研旨在成为深度学习在定理证明中的基础参考,促进这个迅速发展领域的进一步 - 大型语言模型在代码摘要上的性能分析
大语言模型在代码摘要任务方面,特别是代码生成和摘要具有很高的性能。本文发现,这些模型在每个示例上的性能往往取决于代码和对应参考自然语言描述之间的(子词)标记重叠量。此标记重叠主要出现在代码的函数名称中,并通过移除函数名称与移除代码结构来比较 - 重新思考医学图像转换的感知度度量
对医学图像翻译的评估指标进行研究,发现感知度指标通常与分割指标不相关,但是像素级 SWD 指标在细微的内模态翻译中可能有用,结果表明需要进一步研究有助于医学图像翻译的评估指标。
- PEAVS:基于观众评分的音频视觉同步感知评估
最近在音频 - 视觉生成建模方面取得的进展,得益于深度学习和数据丰富的基准的进步。然而,这种增长不仅仅归功于模型和基准,普遍接受的评估指标在推动该领域发展中也起着重要作用。虽然有许多用于单独评估音频和视觉内容的指标,但缺乏提供野外视频音频 - ACLAgentQuest: 一个模块化的基准测试框架,用于衡量和提升 LLM 代理的进展
通过构建可扩展的模块化基准和评估指标,提出了 AgentQuest 框架用于追踪和改进大规模语言模型代理在解决复杂多步骤推理任务中的性能。