从通信理论的角度改进鲁棒性：倾斜指数层

Nov, 2023

从通信理论的角度改进鲁棒性：倾斜指数层

Improving Robustness via Tilted Exponential Layer: A Communication-Theoretic Perspective

Bhagyashree Puranik, Ahmad Beirami, Yao Qin, Upamanyu Madhow

TL;DR通过神经竞争和倾斜指数（TEXP）学习来提高深度网络的鲁棒性，无需数据增强，并通过倾斜 softmax 进行推断。

Abstract

State-of-the-art techniques for enhancing robustness of deep networks mostly rely on empirical risk minimization with suitable data augmentation<

robustness deep networks neural competition texp learning data augmentation

发现论文，激发创造

机器学习中的倾斜损失：理论和应用

本文研究借助指数调控风险函数的方式进行模型优化的问题，提出了倾斜经验风险最小化（TERM）框架及其优化方法，该方法可以灵活地调节损失的影响，减小异常值的影响或增加其公平性，同时具有降低方差和处理不均衡数据的能力，与 Value-at-Risk、CVaR、DRO 等相关优化目标具有严密的联系，并表现出超越传统 ERM 框架的性能。

Sep, 2021

标签噪声下和更多情况下的指数梯度加权鲁棒训练

研究了在机器学习中，每个训练周期都是将梯度步骤视为朝着最小化每个批次的例子的平均损失的方向，其中噪声会导致过度拟合到损失值较大的噪声样本，提出了一种使用指数梯度更新的加权学习方法，适用于一系列噪声类型和应用场景的损失函数。

Apr, 2021

使用噪声对比估计学习神经跨维度随机场语言模型

本文提出了几种技术来提高神经随机场语言模型 (TRF LMs) 的训练效率和性能。这些技术包括参数估计和模型构建等，采用这些技术可以成功地、高效地训练神经 TRF LMs，并且在强 LSTM LM 基线的基础上将 WER 相对降低了 4.7% 左右。

Oct, 2017

Transformer 模型的概率解释

提出 transformers 的注意力子层是 Hopfield 注意力理论中的 log-sum-exp 项的梯度上升步骤，这导致了点的并行扩展，而又被层标准化所抵消的基于指数族的对比学习的概率解释

Apr, 2022

稳定且鲁棒的深度学习方法：双曲正切指数线性单元（TeLU）

引入了 Hyperbolic Tangent Exponential Linear Unit（TeLU）作为一种新的神经网络激活函数，通过解决渐变消失和渐变爆炸问题，提高了稳定性和鲁棒性，在各种深度学习应用中表现出卓越的性能，将其视为潜在的新标准。

Feb, 2024

探索 Softmax 的前沿：可证明的优化、扩散模型应用与更多

通过理论研究两层 softmax 神经网络的优化和泛化性质，揭示了 softmax 函数的归一化效应对所引起的神经核矩阵的扰动性能具有利于构建良好的损失函数曲面凸区域，从而 softmax 神经网络可以在超参数多于样本数量的情况下学习目标函数。

May, 2024

通过瞬态混沌实现深度神经网络的指数表现能力

本文利用黎曼几何和高维混沌的平均场理论相结合，研究了具有随机权重的通用深度神经网络中信号传播的性质。我们的研究结果揭示了从秩序相到混沌相的表达能力相变，并证明了浅层网络无法高效地计算这种深度随机函数族。此外，我们定量证明了深度网络可以将输入空间中高度曲率的流形分解成隐藏空间中的平坦流形。

Jun, 2016

对数和指数神经网络和多项式模型在凸性与对数 - 对数凸性数据中的应用

本文提出了一种使用神经网络和激活函数来实现凸函数和对数对数凸函数的通用逼近器，其中得到的模型可通过凸优化和几何规划来有效设计和优化。

Jun, 2018

深度神经网络的鲁棒解释

本研究提出了一种理论框架和三种不同技术来提高对解释的稳健性。通过训练方法，激活函数的平滑以及网络 Hessian 的最小化，实现了对提高模型的抗干扰能力。实验结果证实了这些方法的有效性。

Dec, 2020

自适应、动态、集成的统计学和信息论学习

本文提出了一种新的算法 $E_{ExpAbs}$，通过将不同的错误度量方式结合起来，在神经网络训练过程中实现自适应、动态学习，并得到了较高的准确性和训练效率。

Nov, 2022