基于 Bregman 散度的鲁棒双温度逻辑损失

Jun, 2019

基于 Bregman 散度的鲁棒双温度逻辑损失

Robust Bi-Tempered Logistic Loss Based on Bregman Divergences

Ehsan Amid, Manfred K. Warmuth, Rohan Anil, Tomer Koren

TL;DR本文介绍一种在神经网络中引入温度的方法，并用高温通用性替换 softmax 输出层。通过调节两种温度来创建单层情况下的非凸损失函数，替换神经网络的最后一层并用双温度通用的逻辑损失函数进行训练，可使训练在一定程度上更加鲁棒。基于 Bregman 散度的方法胜过使用 Tsallis 散度的相关双温度方法。

Abstract

We introduce a temperature into the exponential function and replace the softmax output layer of neural nets by a high temperature general

neural nets temperature logarithm loss functions bregman divergences

发现论文，激发创造

基于 Tsallis 离散度的双温度逻辑回归

我们开发了一个新的多类逻辑回归变种，通过引入两个温度参数，实现了对噪声更加稳健的分类器。在实验中发现，我们提出的模型不仅具有更好的鲁棒性，而且可以方便地控制分类器的凸性程度，这对于数据中存在大量异常值的场景特别重要。

May, 2017

用 Softmax 温化技术训练神经机器翻译模型

本研究探讨了采用 softmax tempering 技术来训练神经机器翻译模型，在亚洲语言 Treebank 数据集和 WMT 2019 英德翻译任务中实验证明该技术显著提高翻译质量，同时使贪心搜索与 Beam Search 解码同为一体，从而实现高速翻译。此外，我们还分析了 softmax entropy 和梯度对 NMT 模型内部行为的影响。

Sep, 2020

采用动态边界缩放的约束优化方法有效防御自然语言处理后门攻击

本研究提出了一种新的用于语言处理的反漏洞优化方法，通过使用动态降温系数来改变损失函数，逐渐聚焦于真实触发器上，并使用降温回滚机制来避免局部最优，并应用于 1600 个模型，发现该技术有效地在 3 个主流自然语言处理任务中检测和移除了 4 种基线攻击。

Feb, 2022

全局收敛性：适用于两层神经网络逻辑损失的随机梯度下降（SGD）

通过分析随机梯度下降算法在 Frobenius 范数正则化的 $logistic$ 损失函数上的最新进展，本文首次证明了对于任意数据和具有适当平滑和有界激活函数（如 $sigmoid$ 和 $tanh$）的门数量的 $2$ 层神经网络，SGD 能收敛到适当正则化的全局最小值；同时证明了连续时间 SGD 的指数快速收敛性，也适用于平滑的无界激活函数（如 $SoftPlus$）。

Sep, 2023

逻辑回归估计的样本复杂度

透过研究样本复杂度，我们发现逻辑回归模型的参数估计受到维数和逆温度的影响，其样本复杂度曲线在逆温度上具有两个临界点，明确地分割低、中、高温度区间。

Jul, 2023

超越温度缩放：使用狄利克雷校准获得良好校准的多类概率

我们提出了一种原生的多类别校准方法，适用于来自任何模型类的分类器，来源于狄利克雷分布并推广了来自二元分类的贝塔校准方法。“通过实验，证明改进了概率预测。

Oct, 2019

深度神经网络及对数损失的分类

使用逻辑损失训练的深度神经网络（DNN）在各种二元分类任务中取得了令人印象深刻的进展，然而，关于 DNN 和逻辑损失的二元分类的泛化分析仍然很少。本文旨在通过建立一种新颖而优雅的 oracle-type 不等式，并利用它推导全连接的 ReLU DNN 分类器在逻辑损失下的尖锐收敛速率，以填补这一空白。此结果解释了为什么 DNN 分类器在实际高维分类问题中表现良好。

Jul, 2023

通过逻辑调整实现长尾学习

本文介绍了两种简单的技术对抗现实场景中数据标签分布的不平衡性，包括采用标签频率进行 logistic 校准以及在训练过程中强制实施其中之一或两种技术能够鼓励罕见标签与支配标签之间拥有一个相对较大的罕见标签较大的标签在一些学习情况中具有更好的表现。

Jul, 2020

学习为温度有条件的 GFlowNets 缩放逻辑

GFlowNets 是一种概率模型，通过学习随机策略来生成组合结构，如分子图。我们提出了一种名为 LSL-GFN 的新颖架构，通过学习将温度作为输入来加速训练 temperature-conditional GFlowNets，并在多个生物化学任务中表现出了更好的性能。

Oct, 2023

利用逻辑归一化缓解神经网络过度自信

本文提出 Logit Normalization 方法，通过约束神经网络输出的 logits 向量的范数，以减少 out-of-distribution 数据的高置信度问题，并在常见基准测试中取得高度可分辨的置信度分数。

May, 2022