关于在一致性正规化中应用隐式元学习的训练

Oct, 2023

关于在一致性正规化中应用隐式元学习的训练

On Training Implicit Meta-Learning With Applications to Inductive Weighing in Consistency Regularization

Fady Rezk

TL;DR通过对不同的 Hessian 逼近方法进行系统性比较分析，研究了隐式元训练在收敛点曲率估计方面的局限性以及其稳定性问题，并利用所得见解提出并评估了一种新型半监督学习算法，该算法通过培训 “信心网络” 来加权一致性正则化损失，提高了基准 FixMatch 效果。

Abstract

meta-learning that uses implicit gradient have provided an exciting alternative to standard techniques which depend on the trajectory of the inner loop training. Implicit →

meta-learning implicit gradient hessian approximation catastrophic forgetting semi-supervised learning

发现论文，激发创造

可扩展贝叶斯元学习通过广义隐式梯度

本论文提出了一种新的隐式贝叶斯元学习 (iBaML) 方法，通过交叉造用隐式微分的优点来控制常规显式梯度下降算法的可扩展性问题，并且这个方法可以扩展学习平均值，量化相关的不确定性，有效地解决了内部优化轨迹带来的设计复杂度限制。作者通过精确的误差界限和大量的数值测试来验证该方法。

Mar, 2023

隐式梯度元学习

本文介绍一种名为隐式 MAML 的方法，用于在少量数据下实现基于梯度的元学习，能够解决通过内层优化得到的结果进行求导时的困难，从而优雅地处理多个梯度步骤，实现在少样本下的图像识别精度的提升。

Sep, 2019

FORML：一种具有正交约束的元学习的黎曼海森自由方法

介绍了一种在 Riemann 流形上使用 Stiefel 近似的 Hessian-free 方法，通过使用 Stiefel 全连接层来增强基于梯度的元学习方法的表示重用，实验结果表明该方法在各种少样本学习数据集上优于现有方法，尤其是欧几里得对应的 MAML。

Feb, 2024

预训练的 Transformer 是否真的通过梯度下降来学习上下文？

在实际的自然语言环境中，对比了 In-Context Learning (ICL) 和 Gradient Descent (GD) 在语言模型上的表现差异，发现二者在适应语言模型的输出分布上存在不一致的行为。

Oct, 2023

使用逆对比损失学习不变表示

使用反对比损失、正则化 MMD 分散度等技巧，提出了一种用于学习不受干扰的不变表示的新算法，适用于二元和连续干扰变量。

Feb, 2021

深度学习解释中高阶损失逼近和特征的影响理解

本研究探讨了在深度学习的解释中，损失函数的 Hessian 矩阵和高阶项，以及特征间的依赖性对解释的影响，并通过实验验证了对组特征进行加权考虑可以显著提高解释的准确性。

Feb, 2019

FedILC: 非独立同分布数据联邦学习中加权几何均值和不变梯度协方差

本研究提出了 FedILC 方法，利用梯度协方差和 Hessians 的几何平均来捕捉环境内部和环境之间的一致性，解决联邦网络中的域漂移问题，并在基准和真实世界数据集的实验证明了我们的算法优于传统基准和类似的联邦学习算法。

May, 2022

无记忆类增量学习的初始分类器权重回放

在没有所有数据的情况下，基于初始分类器权重的归一化方法优于现有技术，在内存最小化的增量学习设置中，对于大规模数据集，它能够通过标准化初始分类器权重和预测得分来提高分类公平性。

Aug, 2020

通过隐式微分优化数百万个超参数

使用梯度优化算法，利用隐函数定理及反向黑塞矩阵逼近来提高超参数优化的效率，成功应用于训练超大规模网络架构，例如数据增强网络，整个过程只比标准训练多花费少量内存与计算资源。

Nov, 2019

上下文学习转模型权重的精确转换

在这篇论文中，我们展示了一个算法（ICLCA），通过在线性变换网络中加入偏置项，可以使得上下文学习（ICL）得以明确和持久化。我们在数学上证明了通过 ICL 演示提示的模型与具有额外偏置项的同一模型之间的等价性。我们的方法允许以低成本进行精确转换，而现有方法并不精确且需要昂贵的参数更新。我们通过实验展示了我们方法的有效性，展示了将 ICL 令牌精确地纳入线性变换器中。我们进一步提出了如何适应我们的方法，以实现 ICL 令牌的便宜近似转换，即使在非线性化的常规变换网络中也可以实现。我们在 GPT-2 上的实验表明，即使转换只是近似的，模型仍然从包含的偏置项中获得了有价值的上下文。

Jun, 2024