关于在一致性正规化中应用隐式元学习的训练
本论文提出了一种新的隐式贝叶斯元学习 (iBaML) 方法,通过交叉造用隐式微分的优点来控制常规显式梯度下降算法的可扩展性问题,并且这个方法可以扩展学习平均值,量化相关的不确定性,有效地解决了内部优化轨迹带来的设计复杂度限制。作者通过精确的误差界限和大量的数值测试来验证该方法。
Mar, 2023
本文介绍一种名为隐式 MAML 的方法,用于在少量数据下实现基于梯度的元学习,能够解决通过内层优化得到的结果进行求导时的困难,从而优雅地处理多个梯度步骤,实现在少样本下的图像识别精度的提升。
Sep, 2019
介绍了一种在 Riemann 流形上使用 Stiefel 近似的 Hessian-free 方法,通过使用 Stiefel 全连接层来增强基于梯度的元学习方法的表示重用,实验结果表明该方法在各种少样本学习数据集上优于现有方法,尤其是欧几里得对应的 MAML。
Feb, 2024
在实际的自然语言环境中,对比了 In-Context Learning (ICL) 和 Gradient Descent (GD) 在语言模型上的表现差异,发现二者在适应语言模型的输出分布上存在不一致的行为。
Oct, 2023
本研究探讨了在深度学习的解释中,损失函数的 Hessian 矩阵和高阶项,以及特征间的依赖性对解释的影响,并通过实验验证了对组特征进行加权考虑可以显著提高解释的准确性。
Feb, 2019
本研究提出了 FedILC 方法,利用梯度协方差和 Hessians 的几何平均来捕捉环境内部和环境之间的一致性,解决联邦网络中的域漂移问题,并在基准和真实世界数据集的实验证明了我们的算法优于传统基准和类似的联邦学习算法。
May, 2022
在没有所有数据的情况下,基于初始分类器权重的归一化方法优于现有技术,在内存最小化的增量学习设置中,对于大规模数据集,它能够通过标准化初始分类器权重和预测得分来提高分类公平性 。
Aug, 2020
使用梯度优化算法,利用隐函数定理及反向黑塞矩阵逼近来提高超参数优化的效率,成功应用于训练超大规模网络架构,例如数据增强网络,整个过程只比标准训练多花费少量内存与计算资源。
Nov, 2019
在这篇论文中,我们展示了一个算法(ICLCA),通过在线性变换网络中加入偏置项,可以使得上下文学习(ICL)得以明确和持久化。我们在数学上证明了通过 ICL 演示提示的模型与具有额外偏置项的同一模型之间的等价性。我们的方法允许以低成本进行精确转换,而现有方法并不精确且需要昂贵的参数更新。我们通过实验展示了我们方法的有效性,展示了将 ICL 令牌精确地纳入线性变换器中。我们进一步提出了如何适应我们的方法,以实现 ICL 令牌的便宜近似转换,即使在非线性化的常规变换网络中也可以实现。我们在 GPT-2 上的实验表明,即使转换只是近似的,模型仍然从包含的偏置项中获得了有价值的上下文。
Jun, 2024