- 测评基准中方差的量化
通过定义和衡量一系列度量评估基准中的方差,包括初始化中的随机性和训练过程中的单调性,本研究提供了对各种方差度量的实证估计,并为从业者提供了考虑和建议。研究发现,简单的改变策略任务(如 MMLU)为较小规模(约 7B)的模型降低了方差,而受人 - ELBO 之外:大规模变分方法采样评估
蒙特卡洛方法、变分推断及其组合在从难以处理的概率分布中取样方面发挥着重要作用。然而,现有研究缺乏统一的评估框架,依赖不同的性能度量和有限的方法比较,给进展的评估和从业者的决策带来了困难。为了应对这些挑战,我们的工作引入了一个基准,使用标准化 - 本体对心血管疾病预测的影响与机器学习算法的比较
心血管疾病在研究中采用机器学习和本体论方法进行分类和性能评估。
- ICLR选择性混合微调以优化不可分解的目标
通过互联网使用量的增加产生了大量的数据,从而导致了各种监督和半监督机器学习算法的采用,这些算法可以有效利用庞大的数据量来训练模型。然而,在将这些模型部署到实际环境之前,必须严格评估性能指标(如最坏情况召回率)并满足公平性等约束。我们发现目前 - 具有均匀最后迭代保证的求解多臂赌博算法的近最优遗憾
该研究论文介绍了一种更强的性能度量方法,即统一最终迭代保证,用于捕捉赌博算法的累积性能和即时性能。它确保每轮玩的手臂的后悔受到一个函数的限制,且随着(大的)轮数 t 单调递减,防止在有足够样本的情况下重新访问差的手臂。研究还提供了一些实现近 - 多目标组合优化问题的高效任意时刻算法
提出了一个新的精确的任意时刻算法,通过三个新颖的思想来增强多目标组合优化问题的任意时刻行为,并在多个性能度量上的综合实验研究中表明优于以前的算法。
- 多用户环境中的符合性预测评估
在多用户设置中,我们评估了共形预测框架,并通过使用不同的评估策略进行了大量实验,发现在共形性能指标方面存在显著差异。同时,我们提出了基于矩阵、图表和图形的多个可视化方法来捕捉预测集的不同方面。
- 3D 医学图像分割性能估计的置信区间
本研究以医学图像分割为背景,通过实验证明了参数置信区间与自助法估计值在不同测试集大小和性能度量传播范围下的合理性,同时揭示了相较于分类任务,医学图像分割所需的测试样本数量常常较低。
- 心血管疾病预测的集成框架
该研究使用基于机器学习算法的集成分类器框架,结合多种性能度量方法,对一个包含多国心血管疾病个体的大型数据集进行研究,获得了 92.34% 的准确率,较现有研究表现更佳。
- 使用多物体跟踪的线性文档图像目标检测
本文介绍了使用多目标跟踪(MOT)实现文档图像中线性对象精确实例分割的框架,包括数据集、性能评估以及性能对比。文章还提供了开源的实现,可以区分曲线、擦除、破折号、交叉和 / 或重叠的线性对象实例。
- CVPR面向可验证和可重复的文本到图像生成的人类评估
本文旨在提出一种规范化和明确定义的人工评估协议,以促进未来作品中可验证和可重复的人工评估,针对 37 篇最近论文调查显示,许多作品仅依赖自动度量或执行不可靠或不可重复的人工评估,同时,作者还提供了设计可靠和决定性人工评估实验所需的见解,并向 - 公平与稳定性:估计方差是朋友还是敌人?
本文讨论了估计器误差分解中的偏差项、方差项和不可避免噪声项, 研究了社会特权和社会劣势群体的公平性问题,并提出了一种基于组间方差的性能度量方法。同时,研发了一个开源库,将不确定性量化技术与公平性分析融合,并在标准基准测试上对基于方差的公平性 - Prayatul Matrix:直接对比评估监督机器学习模型性能的方法
该论文通过引入一种直接比较个别数据集实例的监督机器学习模型方法,即 Prayatul 矩阵,提出了 5 种性能度量,以比较四种分类技术和四种常见的深度学习模型在多个数据集上的性能表现,结果表明新设计的度量能够在比较 ML 算法方面提供更多的 - 优秀的分类度量及其发现方法
通过定义和分析分类表现的可取特性,研究论证了某些性能度量方法比其他方法更好,并提出了一系列新的度量方法,这些方法在除一种可取特性外均可满足,包括 Matthews 相关系数和对称平衡准确性,为实践人员实现充分的分类结果评估提供了重要工具。
- CVPRPixMix:梦幻般的图片全面提高安全措施
机器学习领域的研究论文,介绍了一项新的数据增强策略,通过利用图片的自然结构复杂性如分形等,改善了机器学习系统的稳定性和性能表现,提高了安全措施并在多个方面取得了极为优秀的结果。
- MM基于集成分解模型的亚马逊雨林火灾短期预测
本文通过使用季节性和趋势性分解基于 Loess 的多月前短期负荷预测算法及异构分解集成模型,探讨巴西亚马逊雨林火灾的时间模式,结果表明所提出的模型可以提供更准确的预测,并通过性能指标进行评估,Diebold-Mariano 统计检验显示所提 - CDTB:一种基于颜色和深度的视觉物体跟踪数据集和基准
本文提出了一种长期视觉对象跟踪性能评估方法和基准,并设计了性能度量标准,以最大程度地增强对分析的探究力度。此外,还提出了新的数据集并分析了跟踪架构对长期性能的影响,以及重新检测策略和视觉模型更新策略对长期跟踪漂移的影响。
- AAAISAGA: 一种基于子模函数贪心算法的群体推荐算法
本文提出了一个统一的框架和算法,用于解决团体推荐问题,将团体推荐问题作为在定义在物品关联矩阵上的完全连接图中选择具有最大组共识分数的子图的问题,并提出了一个快速贪心算法,并证明了该算法在常用的评价指标上与最先进的团体推荐算法相比具有有利的性 - 多标签性能度量的统一视角
本文提出了一个统一的边界视角来重新审视多标记分类中的十一种性能度量。通过最大化标签和实例间的边界,不同对应的性能度量将被优化,从而设计一种称为 LIMO 的最大边缘方法。
- KDD量化问题的在线优化方法
本研究提出了用于优化量化特定的性能参数的首批在线随机算法,其对于多变量优化的理论具有最优的收敛性,并通过实验验证,相对于现有的算法,能够更好地对性能参数进行优化。