- 变形金刚的诞生:记忆视角
本研究使用合成机制来考察 transformers 在处理全局信息与上下文信息时的权衡,发现这些模型相对较快地学习了全局信息,但对于上下文信息中的二元组的识别则较慢,同时探究了权重矩阵作为联想记忆的作用以及梯度如何使其在训练时进行学习的理论 - 改进接触式不可微物理仿真的梯度计算
通过 TOI-Velocity 方法,我们改进了不完美的可微分刚体模拟并成功地学习了一个能够匹配分析解的最优控制序列。
- 通过梯度分析探究神经网络的作用范围
通过梯度测量,消除了对于标签的依赖性,并利用数据相关容量、纯洁度和梯度等概念评估并鉴别了网络中的异常输入; 并在检测离散分布,对抗性攻击和损坏样本等异常输入方面超越了现有的方法。
- ICML基于梯度的对抗性样本检测与异常检测
通过使用梯度检测对抗性和分布外样本,引入混淆标签来提高神经网络的有效表达,使模型不依赖真实标签来生成梯度。这种基于梯度的方法能够捕捉输入中的异常,击败先进的方法。
- MM利用辅助信息进行优化
探讨了最小化梯度难以计算或有限可用性的目标函数 $f (x)$ 的基本优化问题,给定某些较为廉价或更可用的辅助边函数 $h (x)$ 来最小化。提出了两种新的通用算法,证明只需在目标和边信息之间进行 Hessian 相似性的假设即可从该框架 - 实用分散式学习对聚类标签推断攻击
本文针对隐私敏感的应用,提出了一种针对实际分割学习的被动聚类标签推断攻击,该攻击可以通过收集交换的梯度和压碎数据来精确检索私有标签,并使用余弦和欧几里得相似度度量来分析潜在的标签泄露。实验结果表明,即使对标签进行差分隐私和梯度压缩的保护,攻 - ICML元学习双向更新规则
本研究提出了一种广义神经网络,其中神经元和突触维护多个状态,通过基于链式法则的二值网络来推导出更新规则,并使用共享的低维 “基因组” 进行参数化,证明了该方法的泛化性和训练速度优于梯度下降优化器,可用于计算机视觉和合成任务。
- CVPR深度卷积神经网络从全局协方差池化中受益:优化视角
本研究尝试从优化的角度研究了全局协方差池化在深度卷积神经网络上的作用机理,发现全局协方差池化可以使优化损失更加平滑,梯度更具预测性,从而提高网络的稳定性、鲁棒性和泛化能力。相关实验证实了以上结论以及全局协方差池化对快速训练、图像失真和扰动下 - 理解和改善层归一化
本研究主要探讨了 LayerNorm 技术的有效性以及如何优化其性能,提出了一种新的规范化方法 AdaNorm,其实验结果比传统 LayerNorm 方法更好。
- 主动联邦学习
该研究提出了一种便捷、简单的采样方案,用于减少联邦学习迭代次数并最大程度提高效率,主要研究领域包括联邦学习、人口模型、梯度和采样方案。
- RATQ:一种用于随机优化的通用定长量化器
提出了一种用于梯度量化的固定长度量化器 RATQ,它能够使得优化的准确率接近信息论界限并且在性能方面表现较优,而且同样适用于分布均值估计和高斯向量数据的压缩过程。
- ICML神经语言模型自然出现稀疏性
本研究探讨稀疏神经模型在自然语言处理中的重要性,使用出租车欧几里得范数对稀疏度进行量化,发现输入频繁的词在激活方面较为集中,而目标词汇的激活由分散变得集中,并且功能词梯度比内容词梯度更集中。
- CVPRP2SGrad:优化深度人脸模型的精细梯度
通过设计梯度,直接更新深度神经网络,以此来解决采用 cosine-based softmax 损失函数可能会出现的超参数敏感性的问题。我们使用 P2SGrad 梯度替代传统的损失函数,该方法利用余弦相似性代替分类概率。在三个人脸识别的基准测 - ICML黑盒变分推断的可证明平滑性保证
本研究论文讨论了黑盒变分推断通过梯度优化较简单分布的参数来逼近复杂目标分布。研究发现,在采用位置 - 比例族逼近的情况下,如果目标是 M-Lipschitz 平滑的,则目标函数也是 M-Lipschitz 平滑的,当然熵要被排除在外。这个结 - 批量归一化如何帮助优化?
本文探讨了批量归一化(BatchNorm)对深度神经网络(DNN)训练的影响及原因,发现 BatchNorm 的成功并不在于控制层输入分布的稳定性,而是在于它让优化的过程变得更加平滑,从而使梯度更加稳定和可预测,加快了训练速度。
- 量子生成对抗网络
本文研究如何在量子领域扩展敌对训练的概念,并展示如何构建使用量子电路的生成性对抗网络。我们还展示了如何利用另一个量子电路计算梯度,同时提供了一个简单实用的电路 ansatz 来参数化量子机器学习模型,并进行了简单的数值实验以证明量子生成对抗 - signSGD:非凸问题的压缩优化
signSGD 可通过传输最小批次随机梯度符号来缓解学习分布在多个 worker 上时的通信效率问题,在实际应用中,其动量对应项能够匹配 Adam 算法在深层 Imagenet 模型上的精度和收敛速度。高斯定理证明 sign-based 优 - 神经网络的一阶对抗漏洞与输入维度
该研究旨在探究神经网络在面对针对性但难以察觉的图像扰动时的鲁棒性问题,发现鲁棒性问题与训练目标的输入梯度密切相关,不同网络拓扑的初始敏感度存在差异,输入维度增加时网络对扰动越加脆弱,且这一现象在正常或鲁棒训练后仍持续存在,但该问题可以通过增 - 量子化学中的自动微分及其在全变分 Hartree-Fock 方法中的应用
本文论述自动微分(AD)在量子化学领域中的应用,展示了用 AD 计算任意参数的渐进值以及优化方法和 DiffiQult 算法的实现。
- ICLR使用近似 Hessian 矩阵加速分布式深度学习的 SGD
本文提出一种新的分布式计算方法,用于计算海森矩阵的逆的排名 $m$ 近似,该方法利用多个 Worker 的梯度和参数的差异,有效地实现了牛顿 - 拉夫逊方法的分布式近似,并揭示出二阶方法用于大规模随机优化问题的优点和挑战,特别是我们的工作表