分裂增强神经网络
本文针对神经网络在实际应用中的表现提出了一个新理论,通过发现在神经网络模型构建过程中的一个常见做法 —— 样本分裂的奥秘来探究其有效性,该理论表明,从样本分裂中得出的最佳超参数能够使神经网络模型渐近地最小化预测风险。我们在不同的应用场景和网络架构中进行了大量实验,结果证明了我们理论的有效性。
Jul, 2023
该论文提出了一种新颖的梯度提升框架,其中浅层神经网络被用作 “弱学习器”,该框架考虑了一般的损失函数,并针对分类、回归和排序学习提供了具体的示例。该模型通过完全修正步骤纠正了经典梯度提升决策树贪婪函数逼近的缺陷,并在多个数据集上的三项任务中表现出超越同类方法的结果。本文还进行了削减研究,以探讨每个模型组成部分和模型超参数的影响。
Feb, 2020
本文提出了一种多速率神经网络训练方法,将神经网络参数划分为 “快速” 和 “慢速” 部分,在不同的时间尺度上进行训练,从而获得传输学习任务的显著计算加速。我们通过在视觉和 NLP 应用中 fine-tune 深度神经网络,证明了我们可以在几乎一半的时间内完成调整,而不影响所得模型的泛化性能。同时,我们分析了多速率方案的收敛性质,并与普通随机梯度下降算法进行比较。本文的贡献是揭示了使用多速率技术进行神经网络训练的潜力,并为未来的工作提供了几个起点。
Jun, 2021
本文介绍了一种模型分区 / 切割的方法,将深度神经网络切分为两个部分,分别在设备和服务器上进行联合训练和联合推理,旨在通过交替优化解决划分点选择和带宽分配问题,以最小化系统的延迟
Oct, 2023
提出一种神经网络架构,它可以学习一组不同数据样本的模型类,从而减少过拟合问题,应用到资产管理中的传统问题 —— 扩散曲线校准问题,并解决了环境、社会及公司治理评级对债券利差的影响问题。
Apr, 2023
在给定的硬件资源约束下,我们设计了深度神经网络,对应的网络拆分来将 DNN 的工作负载分配到摄像头传感器和中央聚合器上的头戴设备上,以满足系统性能目标,通过 SplitNets 框架进行模型设计、拆分和通信减少,进一步扩展框架用于多视图系统,以实现从多个相机传感器中输入的最佳性能和系统效率的融合学习,并在 ImageNet 和 3D 分类的单视图及多视图系统上验证拆分网络的表现优于现有方法。
Apr, 2022
该论文研究如何提高深度学习算法在标签噪声存在的情况下的鲁棒性,提出了一种名为 CrossSplit 的新型训练方法,该方法可以通过两个神经网络在数据集的两个不相交部分上训练来缓解噪声标签的记忆化现象,并使用对等网络的预测来调整每个网络的训练标签。实验证明,该方法在 CIFAR-10、CIFAR-100、Tiny-ImageNet 和 mini-WebVision 数据集上可以比当前最先进的方法提高 90% 的噪声率。
Dec, 2022
这篇论文提出了一种基于强化学习的 AI 策略 SplitPlace,可以智能决策基于边缘计算的需求,采用分层或语义分割策略,对神经网络进行分割并将其部署在资源受限的移动边缘设备上,实现高效可扩展的计算。实验表明,SplitPlace 可以显著提高平均响应时间、截止日期违规率、推断准确度和总奖励达 46%,69%,3%和 12%。
May, 2022
采用预训练深度神经网络层作为基块构建多任务学习系统,通过动态选择相关的先验知识、模型参数和超参数进行自动调优,控制模型规模实现高质量模型与较小的规模之间的权衡,并在 10 个多样化的图像分类任务中,相对于标准调优,提高了平均精度 2.39%而使用了每个任务 47% 以上的参数。
May, 2022