基于扩散的神经网络权重生成
扩散模型以及自动生成的神经网络参数,通过混合使用自动编码器和标准潜在扩散模型,从训练网络参数的随机噪声中合成潜在参数表示,并生成具有可用性的新的网络参数子集,从而稳定地提升性能。
Feb, 2024
本文探讨了从预训练模型中创建集成模型的不同方法,并提出了一种有效的算法来识别下游数据集的预训练模型子集。在 19 项下游任务中(视觉任务适应基准),即使从超过 2000 个预训练模型中进行选择,其实现了具有较低推理预算的最先进性能,并且在 ImageNet 变体上对分布转移具有更好的鲁棒性。
Oct, 2020
该论文介绍了一种名为 Transfer Guided Diffusion Process (TGDP) 的新方法,用于在目标领域中将预训练的扩散模型与域分类器的额外指导相结合,以实现优化后的扩散模型,进一步将 TGDP 扩展为用于建模数据及其对应标签的条件版本,并引入两个附加的正则化项以提高模型性能,通过高斯混合模拟和真实心电图数据集验证了 TGDP 方法的有效性。
May, 2024
在深度神经网络中,迁移学习对于新目标任务的训练至关重要。我们提出了一种基于深度生成模型的迁移学习方法,通过伪预训练和伪半监督学习两个阶段来进行,不需要做出现有方法中的假设,能够优于从头开始训练和知识蒸馏的基准方法。
Apr, 2022
本文研究了传递学习的有效性,并发现原先认为的更多的预训练数据不一定就能提高模型性能,而是需要审慎选择预训练数据。同时,作者提出了基于目标数据集计算重要性权重的领域自适应传递学习方法,并在多个细粒度分类数据集上取得了最先进的结果。
Nov, 2018
本文提出了一种新的算法来训练递归神经网络,并将其与随机梯度下降进行了初步比较,结果表明该算法可以在更少的时代内实现与随机梯度下降相似的泛化准确性。该算法来源于与扩散方程相关的非凸优化理论,自然而然地产生了某些看似不相关的深度学习机制。
Jan, 2016
本文提出一种方法,通过跟踪神经网络在优化过程中的权重轨迹从而计算 DNN 的权重分布,进而通过从这些分布中抽样网络来评估 DNN 的认知不确定性。该方法无需更改架构或训练过程,在标准分类和回归基准测试以及分类和语义分割的混淆数据检测上具有竞争性的结果,同时保持较高的计算效率。
Dec, 2019
本文提出了一种称为 “Weight Distillation” 的方法,通过参数生成器传递大型神经网络参数中的知识,来实现模型加速和压缩,在三个机器翻译任务中取得了 “竞争性” 的性能表现,以及相比于知识蒸馏高出 0.51-1.82 BLEU 分数的性能。
Sep, 2020