- 低维数据上生存模型的大规模中性比较研究
在此论文中,我们进行了首个大规模的中性基准实验,重点关注单事件、右删失、低维度生存数据。我们对 18 种模型进行了评估,涵盖经典统计方法和常见的机器学习方法,并使用 32 个公开可用的数据集。通过性能评估,我们发现在低维度、右删失数据的标准 - 通过决策规则进行模型比较的动态可解释性
提出了一种模型无关方法 DeltaXplainer,用于生成基于规则的解释,描述二进制分类器之间的差异,以实现对机器学习模型的理解和选择。通过在合成和真实数据集上进行实验,涵盖不同类型的概念漂移,验证了 DeltaXplainer 的有效性 - 因子图中的模型比较自动化
本文利用消息传递机制,结合 Forney 样式因子图的混合节点,提出了一种高效的贝叶斯模型平均、选择和组合方法,可同时进行参数和状态推理,并可以用于模型比较,缩短了模型设计周期,可以便捷地扩展到基于层次模型和时间模型的应用。
- SANE:通过锐度调整的有效参数数量优化的梯度下降阶段
本文研究神经网络的 Hessian 矩阵在训练过程中的应用,提出了 SANE 用于模型比较,并探究了大学习率下 Hessian 矩阵的偏移及其对深度神经网络的影响。
- 合成数据生成的效用理论
本文从统计学角度建立了公用度理论,旨在基于一般度量量化合成算法的公用度。我们验证了公用度指标的收敛性,并通过实验证实了我们的理论发现,以证明在正确的模型规格下,合成特征分布不一定与原始数据相同。
- 多跳机器阅读理解方法全面调查
本文综述了近年来一系列关于基于 31 项研究的多段式机器阅读理解方法的探索和研究成果,着重介绍了问题定义、模型技术,以及模型和技术之间的优缺点比较。
- 贝叶斯实验设计及其在面孔差异性判断中的应用:用有争议的刺激区分表征几何形状
本研究提出了贝叶斯实验设计方法,用于综合刺激集,以高效地区分候选神经网络模型,并为模型比较而设计实验的表示相似性分析。我们的结果表明,与识别、分类或自编码相同架构的神经网络训练在反演 3D 脸部模型渲染器方面更符合人类表现。
- 自我监督的语言学习:从零语音资源挑战中的经验教训
通过 Zero Resource Speech Challenge 系列自 2015 年以来的六个版本的总结,讨论了自我监督或无监督机器学习的最新进展,并重点介绍了声学单元发现,口语术语发现,离散重构和口语语言建模四项任务的相关度量标准和基 - ECCV深度学习中局部距离相关性的多用途应用
本研究使用距离相关性技术进行深度学习模型的功能行为比较,发现距离相关性可以作为多种应用的正则化程序或约束条件,避免了常见困难。
- 机器学习中的不可重复性来源:综述
机器学习中模型比较中存在的不可重现性问题及其来源进行分析,发现研究文献中存在多个已知的不可重现性问题,导致很多研究结果无法得到验证,提出了三个值得深入探究的方向。
- WWW用于复杂网络深度表征的几何和拓扑推断
该研究提出了一种基于拓扑数据分析和图形方法的统计算法,先前的研究对比了模型和大脑中不同区域的表示几何之间的差异,而这种方法强调了表示拓扑和几何的结构, 可以用于模型比较和选择,并可用于探索计算机和神经网络模型之间的关系和相互作用。
- 随机变量的最大值的预期验证性能和估计
本文分析了预期验证性能的三个统计估计方法在计算预算方面的效果,并在合成和现实情况下对三个估计器进行评估。其中,无偏估计器具有最高方差,方差最小的估计器具有最大的偏差;最小均方误差的估计器在偏差和方差之间取得了平衡,呈现出经典的偏差 - 方差 - ICML图像分布和任务对敌对鲁棒性的影响
该研究提出了一种新的指标来度量模型的鲁棒性,能够进行跨模型的比较,并在实验中发现训练数据集以及任务类型的差异影响模型的鲁棒性。
- 节点分类任务中图神经网络公平比较的流程
本研究设计了一套标准、可重复的基准测试设置,并使用多个小型和中型数据集以及 7 个不同模型对其进行评估,结果表明模型层数的增加并不总是能提高性能,结合节点 2vec 和拉普拉斯特征向量的数据增强技术可以有效提高分类任务表现。
- ACL神经关键词生成的实证研究
本文通过实证研究和数据分析,对神经关键词生成(KPG)任务中的不同模型设计和相关因素对其泛化性能的影响进行了全面的比较,旨在为澄清 KPG 任务的一些不确定性,促进未来的相关研究提供帮助。
- CVPR失真受限优化下的有损压缩
该研究论文提出在训练损失压缩的端到端学习模型时,使用约束优化方法比传统的 beta-VAE 方法更合适,因为它可以在保持失真率的情况下获取最佳速率,实现点对点模型比较。
- 利用 ImageNet 的医学图像分析中的迁移学习研究
本研究对新近的使用 ImageNet 数据集进行卷积神经网络预训练之后在医学图像分析方面应用的文章进行了综述,总结了数据处理、方法选择和结果评估等方面的主要趋势,发现存在一些关键的研究缺口。
- 图神经网络基准测试
本文介绍了 Graph Neural Networks (GNNs) 领域关于基准测试框架的应用,通过该框架,可对模型进行比较,并且探索新的 GNN 设计和洞见,其中,图形位置编码 (PE) 是该基准测试框架中引入的重要设计之一。
- COLING神经序列标注的设计挑战和误解
本文研究了构建有效和高效神经序列标记系统的设计挑战,通过复现 12 个模型,在三个基准测试中进行系统模型比较,消除现有文献中的误解和不一致的结论,并得出了一些对从业者有用的实用结论。
- 更公平、更准确,但为谁而做?
该论文介绍了一种比较不同风险评估模型公平性的框架,特别关注与种族和性别的不平等问题,以预测再犯率和贷款为例进行实验。