- 神经网络中梯度平滑的公理化
神经网络梯度平滑理论框架及其设计新方法的研究潜力探索
- 光栅化边缘梯度:可微分处理不连续性
基于光栅化的可微分渲染器方法,通过微边缘的引入,解决了可视性不连续的梯度计算问题,简化了传统复杂问题,实现了直接、有效且高效的解决方案。该方法适用于光栅化掩码、深度和法线图像,可简化不连续处的梯度解释,并处理几何交叉点,相较于先前技术具有优 - 可解释梯度的学习范式
本论文研究了卷积网络的可解释性,通过利用显著性图进行分析。我们提出了一种新的训练方法,通过引入正则化损失,使标准反向传播得到的输入图像相对于引导反向传播得到的梯度类似。我们发现,由此得到的梯度在质量上更加清晰,量化上改善了不同网络的可解释性 - 稀疏梯度的差分隐私优化
在大型嵌入模型应用的推动下,我们研究了带有个体梯度稀疏性的差分隐私(DP)优化问题,我们得到了经典均值估计问题的新近最优界限,但这是在稀疏数据情况下,改进了先前的算法,特别是在高维情况下。在此基础上,我们提出了几乎最优的 DP 算法和近似 - 基于点云网络的快速简单可解释性
我们提出了一种快速简单的解释型 AI (XAI) 方法,用于点云数据。通过计算针对训练网络的点级重要性,可以更好地理解网络属性,这对于安全关键应用至关重要。除了调试和可视化外,我们的低计算复杂性还有助于在线反馈网络推断。这可以用于减少不确定 - 损失景观的灵敏度分析
利用梯度进行敏感性分析,通过自动微分以及包含激活函数的损失函数探索损失空间中影响因变量的独立变量,利用二阶梯度可视化类似于 Spearman 相关系数结果的信息,同时一阶和三阶导数也揭示了独立变量对因变量的影响程度。
- GradSafe:通过安全关键梯度分析检测 LLMs 的不安全提示
通过对大型语言模型的安全关键参数梯度的分析,本研究提出了 GradSafe 方法,以有效检测不安全提示,证明其在检测不安全提示方面的卓越性能优于经过大规模数据集精调的 Llama Guard,同时适用于零样本和适应性场景。
- 倒推镜头:将语言模型梯度投影到词汇空间
理解 Transformer-based 语言模型是深度学习社区的一个关键目标,最近的可解释性方法在前向通道的权重和隐藏状态上帮助发现信息在模型中的流动,本研究将这种方法扩展到后向通道和梯度,证明了梯度矩阵可以被看作是前向和后向通道输入的低 - 用于训练数据归因和研究损失景观的梯度草图
基于神经网络内在维度的研究,我们提出并研究了一种可扩展的草图算法设计空间,并在训练数据归因、Hessian 谱分析和精调预训练语言模型的内在维度计算三个应用中验证了我们方法的有效性。
- 对分布变化下的无监督准确率估计进行梯度特征化
该研究论文研究了在不同测试环境中无法访问真实测试标签的情况下估计测试准确性的方法,通过使用神经网络的输出或提取特征来建立与真实测试准确性相关的估计分数,实验证明梯度提供的信息可以预测分布变化下的真实测试准确性,并提供了理论方面的洞见。
- 多元向量值函数的共享活跃子空间
本文提出了几个作为计算多元向量值函数的共享主动子空间的基线的方法,其目标是最小化原始空间上的函数评估与重构空间上的函数评估之间的偏差,可以通过操作梯度或从每个分量函数的梯度计算的对称正(半)定矩阵来得到所有分量函数共同的单一结构,这些方法可 - 稳定大型语言模型的预训练:再见尖峰
在大型语言模型的预训练过程中,我们探究了梯度爆炸的原因,并提出了满足预防梯度爆炸的条件的初始化方法和嵌入的简单修改方法,通过实验证明了这种组合在预训练过程中有效地防止了损失峰值的出现。
- 简单数据集压缩
通过 RaT-BPTT 方法解决数据集精炼的核心问题,从而建立起一种新的数据集精炼技术,用于生成包含近乎最佳性能子集的精炼数据集。
- PyTorch 上的 VMAF 重新实现:一些实验结果
基于标准的 VMAF 实现,我们提出了一个使用 PyTorch 框架的 VMAF 实现。通过与标准库 VMAF 的比较,我们发现在 VMAF 单位上的差异小于 10^-2。我们研究了使用 VMAF 作为目标函数时的梯度计算,并证明使用该函数 - 深度综合解释
该研究提出了 Deep Integrated Explanations(DIX)—— 一种用于解释视觉模型的通用方法,通过整合模型的中间表示和相应的梯度来生成解释图,通过广泛的客观和主观评估展示了 DIX 在生成准确和可靠的解释图方面超越了 - 基于不确定性梯度匹配的模型合并
通过对不同数据集进行训练的模型进行带权平均化可以提高其性能,但为什么会有效以及何时可能失败?我们通过梯度不匹配将带权平均的不准确性联系起来,并提出了一种基于不确定性的新方案,通过减少不匹配来改善性能。这种联系还揭示了其他方案(如平均化、任务 - 基于差异性的离散随机梯度估计方法:DBsurf
介绍了一种基于 Reinforce 的离散分布估计方法 DBsurf,通过减少样本与实际分布之间的偏差来提高梯度估计的准确性,达到在不同数据集和采样设置下实现最佳结果的训练变分自动编码器(VAE)及构建具有最新性能的简单高效的神经架构搜索( - 跨联邦物联网设备对数据分布的对抗预测
联邦学习是用于分散式物联网设备训练机器学习模型的默认方法之一。但是,本研究表明,联邦学习中共享的模型权重可能泄露物联网设备的本地数据分布信息,并且模型权重注入噪声无法有效防止数据泄露。
- 实时图像平滑改进:保留弱结构和移除高对比度细节
通过计算符合像素结构或细节性质的值,使用迭代最小二乘法 (ILS) 方法处理图像平滑,既可以有效保存弱结构又可以移除高对比度细节。
- 基于形状引导的梯度投票方法用于领域通用化
本研究提出了一种通过形状向导梯度更新策略来提高图像分类任务中的领域泛化能力的方法,并通过在多个数据集上进行实验,展示了其具有显著的改进效果。