神经网络预测的可再现性研究
通过研究 Rashomon 集合中模型更新引起的冲突预测多样性,本文提出了一种传统多样性度量方法用于预测模型的非稳定预测数量,以及如何通过该方法预测、减少和避免消费者应用中的冲突。
Feb, 2024
本文研究了神经网络训练过程中的表现差异性,找出了其来源,证明了其不可避免的存在性,并通过初步研究从各个方面探讨了训练初值、数据扩增和学习率等方面的影响。
Apr, 2023
本文实验性地研究了神经网络优化的不确定性,证明了所有不确定性来源都对模型多样性具有类似的影响,这是因为模型训练的不稳定性是决定性的因素,并提出了两种减少波动性的方法。
Mar, 2021
给定神经网络的初始条件,通过在参数空间中重建输入从相邻激活层到单层辅助网络的级联来预测深层前馈神经网络的可训练区域,从而显著降低整体训练时间,并确定信息流动与深度神经网络的可训练性之间的具体联系。
Jun, 2024
通过研究模型在训练过程中的随机性,我们发现在自然语言理解任务中,模型的预测结果的不稳定性会对一部分查询产生影响,提出了一种衡量稳定性现象的方法 —— 标签熵,我们研究了数据不可知的正则化方法和新的数据中心方法,发现它已在计算成本的分数中取得了 90% 的性能优势以及金标准的表现。
May, 2023
本文通过对 CIFAR-100 和 ImageNet 上使用现有正则化方法进行的实证评估,指出某些正则化方法可以作为保证深度神经网络(DNN)鲁棒性和不确定性评估的强有力基线方法。
Mar, 2020
本论文研究如何应对模型迭代过程中出现的抖动现象,通过引入模型准确性度量指标,研究噪声和模型大小带来的影响,并尝试采用集成和蒸馏等技术降低抖动,其中 co-distillation 技术在资源利用率上有适度提升的同时,可在语义分析系统中达到最佳抖动降低效果。
Apr, 2022
分析软件工程领域的软件错误预测是否存在与其他机器学习领域相似的可复现性问题,发现大部分研究文章缺乏关键的复现元素,呼吁改进研究实践以确保基于机器学习的研究的可复现性。
Feb, 2024