本文研究借助指数调控风险函数的方式进行模型优化的问题,提出了倾斜经验风险最小化(TERM)框架及其优化方法,该方法可以灵活地调节损失的影响,减小异常值的影响或增加其公平性,同时具有降低方差和处理不均衡数据的能力,与 Value-at-Risk、CVaR、DRO 等相关优化目标具有严密的联系,并表现出超越传统 ERM 框架的性能。
Sep, 2021
研究了在机器学习中,每个训练周期都是将梯度步骤视为朝着最小化每个批次的例子的平均损失的方向,其中噪声会导致过度拟合到损失值较大的噪声样本,提出了一种使用指数梯度更新的加权学习方法,适用于一系列噪声类型和应用场景的损失函数。
Apr, 2021
本文提出了几种技术来提高神经随机场语言模型 (TRF LMs) 的训练效率和性能。这些技术包括参数估计和模型构建等,采用这些技术可以成功地、高效地训练神经 TRF LMs,并且在强 LSTM LM 基线的基础上将 WER 相对降低了 4.7% 左右。
Oct, 2017
提出 transformers 的注意力子层是 Hopfield 注意力理论中的 log-sum-exp 项的梯度上升步骤,这导致了点的并行扩展,而又被层标准化所抵消的基于指数族的对比学习的概率解释
Apr, 2022
引入了 Hyperbolic Tangent Exponential Linear Unit(TeLU)作为一种新的神经网络激活函数,通过解决渐变消失和渐变爆炸问题,提高了稳定性和鲁棒性,在各种深度学习应用中表现出卓越的性能,将其视为潜在的新标准。
Feb, 2024
通过理论研究两层 softmax 神经网络的优化和泛化性质,揭示了 softmax 函数的归一化效应对所引起的神经核矩阵的扰动性能具有利于构建良好的损失函数曲面凸区域,从而 softmax 神经网络可以在超参数多于样本数量的情况下学习目标函数。
May, 2024
本文利用黎曼几何和高维混沌的平均场理论相结合,研究了具有随机权重的通用深度神经网络中信号传播的性质。我们的研究结果揭示了从秩序相到混沌相的表达能力相变,并证明了浅层网络无法高效地计算这种深度随机函数族。此外,我们定量证明了深度网络可以将输入空间中高度曲率的流形分解成隐藏空间中的平坦流形。
Jun, 2016
本文提出了一种使用神经网络和激活函数来实现凸函数和对数对数凸函数的通用逼近器,其中得到的模型可通过凸优化和几何规划来有效设计和优化。
Jun, 2018
本研究提出了一种理论框架和三种不同技术来提高对解释的稳健性。通过训练方法,激活函数的平滑以及网络 Hessian 的最小化,实现了对提高模型的抗干扰能力。实验结果证实了这些方法的有效性。
Dec, 2020
本文提出了一种新的算法 $E_{ExpAbs}$,通过将不同的错误度量方式结合起来,在神经网络训练过程中实现自适应、动态学习,并得到了较高的准确性和训练效率。
Nov, 2022