- AAAIGLUECons:一种用于约束条件下学习的通用基准
本文介绍了一项新的基准测试,共包含九个任务涵盖自然语言处理和计算机视觉等领域,该测试旨在系统评估外部知识约束整合方法的效果,通过一组扩展的评估标准分析各种模型的性能,为相关研究挑战提供了框架和指导。
- COLING人类标准与自动度量 —— 评估故事生成的基准
本文通过提出 6 个人工评估标准,构建一个注释数据集‘HANNA’,并分析 72 种自动指标与人工标准的相关性,强调了当前 ASG 的评价标准的缺陷,并提出了实用的评价建议。
- 一份关于佛利音效合成挑战的提案
本文旨在探索利用机器辅助技术进行 Foley 音效合成的新方法并提出了一个详细的 Foley 合成挑战,包括任务定义、数据集需求和评估标准。
- 解释方法质量评估标准的元调查
通过文献调研和元分析,我们建议采用适当的信任作为衡量主观评价标准结果的标准,并提出了一个解释质量方面的模型,其中类似定义的标准被分组,并与三个识别出的质量方面相关联:模型、解释和用户。最后我们提出了一个包含四个常用标准(群)的模型,涵盖了解 - 动态物体理解:评估人工视觉感知的框架
本文讨论增强和混合现实中的视觉感知挑战,且探讨了现有评估标准的不足,并提出了新的评估指标以激励和评估这个新兴领域的进步。
- 医学影像分析中的临床可解释人工智能指南与评估
提出了临床 XAI 指南作为临床用户获取来自 AI 的决策支持和遵守基于证据的医疗实践的关键,它由五个优化临床 XAI 的标准组成,涵盖可理解性、临床相关性、真实性、信息可信度和计算效率等方面,对 16 种常用的热图 XAI 技术进行了系统 - GPU 可用的模块化合成器中的十亿音频声音
该研究介绍了一个包含 10 亿个可合成声音及音频参数的多模态音频语料库,提出了一个新的基于排名的音频表示评估标准,并且采用新的综合方法,提高了合成器参数优化的精度。
- 保护隐私文本匿名化的评估标准:无入侵者即无效性
该研究探讨了文本匿名化在保护数据隐私和遵守相关法律方面的困境和挑战,并提出了一种名为 TILD 的评估标准来衡量匿名化方法的性能和信息损失,以及人类重新识别隐去文档的能力,为实现匿名化性能标准化提供了可能。
- ICLR基于人类感知的超高分辨率细胞膜分割评价标准
本文提出了一个用于细胞膜分割的电子显微数据集 U-RISC,该数据集具有多次迭代注释和未压缩的高分辨率原始数据。针对当前标准分割评估方法与人类视觉认知差异的问题,本文提出了一种称为感知豪斯多夫距离(PHD)的新评估标准,并对该标准与现有标准 - ObjectNav Revisited: 关于评估具有体验式智能的智能体导航到对象的研究
研究重新访问 Object-Goal Navigation (ObjectNav) 问题,对任务进行了定义,提出了对评估标准、Agent 的具体参数、以及任务环境等细节的建议,并提供了在 Embodied AI workshop at CV - ICLR稳健性分析解释的评估和方法
本文提出一种基于鲁棒性分析的特征解释新的评估标准,通过针对我们提出的评估标准进行优化,获得了松散且必要的解释和可以将当前预测移动到目标类的特征集。我们通过多领域实验和用户研究验证了我们评估标准和解释的有用性。
- 单场景视频异常检测调查
本论文总结了单一场景视频流异常检测的研究动向,包括问题表述、公开数据集、评估标准、算法比较和最佳实践,并提出未来研究的可能方向。
- 无需真实标注:统一解释方法评估
本文提出了一组用于评估神经网络解释方法客观性的标准,设计了四个度量标准来评估解释结果(即没有真实解释数据情况下),并对九种基准解释方法进行了广泛应用,从而提供了解释方法的新见解。
- CVPRCOIN: 一份广泛类别教育视频分析的大规模数据集
介绍了一个名为 COIN 的大规模数据集,包含了 180 个任务的 11,827 个视频,使用层次结构进行组织,并用新开发的工具包有效注释了所有视频的一系列步骤描述和相应的时间边界,提出了一种简单但有效的方法,用于捕捉不同步骤之间的依赖关系 - 街景场景:视频异常检测的新数据集和评估协议
本文介绍了一个名为 Street Scene 的大型多样化数据集和两个新的评估标准,旨在推动视频异常检测研究的进展。另外,我们提出了两个新的基准算法,证明它们在 Street Scene 数据集上比文献中现有的两个最先进的算法更准确。
- MM在线机器学习技术预测操作员绩效
本文探讨了多个在线机器学习算法,从理论角度评估了它们在特定函数逼近问题上的适用性,进一步通过高效的实现利用各种计算和数学技巧将理论上适合的学习算法应用于手头的函数逼近问题,并通过严格测试评估实现的学习算法。
- 自动修复软件的问题陈述和评估:基于人类编写的修补程序学习的自动生成修补程序的批判性评论
本文批判了 Kim 等人的 PAR 方法,讨论了自动软件修复的评估标准(可理解性,正确性和完整性),说明了修复接受性与软件正确性之间的关系。