- 非线性系统识别中使用 Fisher 信息增益的动态重要性学习
该论文提出了一种综合利用 Fisher 信息矩阵(Fisher Information Matrix)的端到端黑盒系统识别方法,以获得对动态重要性和整体模型结构的洞察。该方法通过在网络的第一层添加决策模块,并使用完整的 FIM 作为输入来确 - 线性规划的费舍尔 - 饶梯度流和状态 - 动作自然策略梯度
研究了基于状态 - 动作分布的费舍尔信息矩阵的另一种自然梯度方法,并表明其具有线性收敛性和几何相关的错误估计,改善了现有结果。进一步扩展了这些结果,对于扰动费舍尔 - 劳梯度流和自然梯度流,展示了次线性收敛性以及近似误差的界限。
- SOFIM:使用正则化的费歇尔信息矩阵进行随机优化
该论文提出了一种基于正则化 Fisher 信息矩阵(FIM)的新的随机优化方法 SOFIM,可以高效地利用 FIM 来近似 Hessian 矩阵,从而在大规模机器学习模型的随机优化中找到牛顿梯度更新。SOFIM 可以视为自然梯度下降(NGD - 深度生成模型的 Fisher 信息度量的近似方法用于异常检测
根据梯度的大小来检测离群数据的深度生成模型无偏方法表现优于典型性测试。
- 对角化费舍尔信息矩阵估计的权衡
通过分析两种随机估计器的方差并在回归和分类网络中实例化它们,我们研究了非线性对不同参数组的方差数量的影响,并发现在估计 Fisher 信息时这些方差数量不能被忽略。
- EMNLP使用 Fisher 信息矩阵在多语言翻译模型中聚类伪语系
通过使用费舍尔信息矩阵(FIM)将语言家族进行聚类,我们提出了一种创新的方法来解决多语言翻译模型训练阶段数据集变化所带来的挑战,并定义了伪语言家族。实证评估结果显示,采用这些伪语言家族能够在适应陌生语言对的多语言翻译模型中提高性能,该方法也 - DeepClean: 通过重置隐私敏感权重使用 Fisher 对角线的低成本机器遗忘
我们提出了一种轻量级的遗忘算法,利用费舍尔信息矩阵(FIM)进行选择性遗忘,通过计算 FIM 的对角元素以实现全面遗忘,同时最大程度减少对保留数据的影响,从而提供了可解释性、轻量级和高效的解决方案,可有效保护隐私并可应用于各种神经网络架构。
- 非平稳测试时间适应的逐层自动加权
采用 Fisher 信息矩阵为基础的算法,通过引入逐层自动加权的方法,实现在不断变化的目标分布环境中的模型自适应,以减少遗忘和错误积累,并大大降低计算负载。
- EMNLP关于语言编码器的手术微调
为适应新任务,研究发现只对神经语言编码器的部分层进行微调就足以获得接近甚至更好的性能,提出一种基于 Fisher 信息矩阵对候选层进行选择的高效度量指标,并通过在不同语言编码器和任务上的实验证明该指标能够有效选择层以获得强大的下游性能。
- NPEFF:非负每样本费舍尔因式分解
我们介绍了一个名为 NPEFF 的新的可解释性方法,可以应用于任何端到端可微分模型。使用 NPEFF,我们将每个示例的 Fisher 信息矩阵分解为非负和的组成部分,这些组成部分可以是非负向量或秩为 1 的半正定矩阵形式,通过实验证明 NP - 用记忆法码实现单次机器遗忘
本文提出了一种称为 one-shot MU 的方法,该方法通过向受不良训练数据敏感的模型参数添加噪声来实现目标,利用 Fisher 信息矩阵评估敏感模型参数,而无需使用训练数据来计算该矩阵,进而用类特定的合成信号,即基于助记符代码来避免需要 - 一种概率框架的终身测试适应性
PETAL 是一种基于概率视角和部分数据相关先验的测试时间自适应方法,利用 Fisher 信息矩阵的数据驱动模型参数重置机制应对非平稳目标领域转移,实验结果表明 PETAL 在多个基准测试数据集中表现出更好的预测性能和不确定性指标。
- MM改进的 (方差减少的) 策略梯度和自然策略梯度方法分析
该论文重新审视和改进策略梯度方法、自然策略梯度方法及其方差减少版本在一般平滑策略参数化下的收敛性,尤其是通过正定的策略的 Fisher 信息阵表明了一种最先进的方差减少策略梯度方法在策略参数化方面仍然存在函数逼近误差,而自然策略梯度方法具有 - 数据会在深度学习中引起容量控制吗?
通过对分类数据集进行研究,我们发现输入相关矩阵的特征值谱具有指数级范围的均匀分布特征,这种结构体现在训练出的网络的 Hessian 矩阵和 Fisher 信息矩阵的特征值谱中,我们称这种特征值谱为 “懒散”,我们还发现非懒散的训练集可能导致 - 基于示例解释的交互式标签清洗
Cincer 是一种新的方法,它基于样本间的最大不兼容性来清洗数据,并使用 Fisher 信息矩阵的影响函数近似实现。该方法能发现在传统方法无法发现的已污染数据,并与过去数据一同进行清洗,可以显著提高数据和模型的质量。
- MM由多层感知器的不变性引起的分层 Jacobi 矩阵的渐近自由性:Haar 正交情况
本文证明了在多层感知器中,层级雅可比矩阵的渐近自由假设,使得通过层中传播特征分布成为可能。通过使用自由概率理论得到的结果,在神经网络的参数和输入雅可比矩阵中,它们是层级雅可比矩阵的多项式,通过使用 Haar 正交随机矩阵解决了使用这些雅可比 - 灾难性费舍尔爆炸:早期阶段费舍尔矩阵影响泛化
深度神经网络训练初期对损失函数的局部曲率有巨大影响。随机梯度下降(SGD)在训练早期隐含地惩罚了 Fisher 信息矩阵的迹,并且这种隐式的正则化方法会显著提高泛化能力。
- 自然梯度的痕迹限制克罗内克 - 分解近似
本文提出了一种新的用于训练深度神经网络的二阶优化方法,叫做 TKFAC(Trace-restricted Kronecker-factored Approximate Curvature),其包括对 Fisher 信息矩阵的逼近和新的阻尼技 - ICLR表示学习中信息瓶颈的相变
通过研究信息瓶颈 (IB) 目标函数中的多个相变,我们引入了 IB 相变的定义作为 IB 损失函数景观的定性变化,并提出了一个公式,为 IB 相变提供了实际条件,从而预测了数据集的阶段性变化和分类难度。
- 带矩阵值核的斯坦变分梯度下降
本文提出了一种新颖的基于矩阵的 Stein 变分梯度下降算法,通过利用 Hessian 矩阵和 Fisher 信息矩阵等预处理矩阵来加速粒子的探索,从而实现了更加高效的近似推断,并在实验中证明其性能优于其他基线方法。