- 用于机器视频编码的竞争学习实现内容特定滤波器
通过优化内容特定的后处理滤波器,将面向人类的视频 / 图像编解码器调整为适用于机器视觉任务的编解码器,并且通过竞争学习原理,提出了一种基于模拟退火优化技术的训练策略,该策略以模糊方式动态地分配训练样本给滤波器,使用温度变量的 softmax - 预训练中去除异常值是一餐免费午餐吗?
通过引入一个新的 softmax 函数,该方法通过处理异常值,使模型适配量化,且能成功预训练因果语言模型。
- 基于狄利克雷分布的含噪标签学习预测校准
本研究提出了一种基于 Dirichlet 分布的预测校准方法(DPC),通过引入一个合适的常数来打破 softmax 函数的平移不变性,从而实现更可靠的模型预测,并通过引入一种新的证据深度学习(EDL)损失函数来确保稳定的模型训练。通过在各 - Transformer 中的黄金时刻:多步任务揭示的 Softmax 引发的优化问题
该研究研究了 transformers 在面对多步决策任务时对损失的快速、逐步改进。我们发现 transformers 在学习中间任务上存在困难,而 CNN 在我们研究的任务上没有此问题。当 transformers 学习中间任务时,它们在 - Softmax 的优势:揭示其在线性注意力上的性能优势
通过对 softmax 和线性注意机制进行全面的比较分析,我们揭示了 softmax 注意在大多数情况下优于线性注意的潜在原因。
- 重访连续学习中的稳定性问题的 Softmax 掩蔽
利用掩码 softmax 方法,针对连续学习中逐渐遗忘与保留的准确决策所存在的困难,本文重新研究了它对稳定性的影响,并提出了一个利用其保持置信度分布的方法,相较于最新方法在使用零或少量内存时,我们的方法在整体性能上表现更好,为基于回放的连续 - 一层自注意力变压器使用低秩权重矩阵是通用逼近器吗?
通过澄清 softmax 函数与 Boltzmann 算子之间的联系,我们证明具有低秩权重矩阵的自注意力单层具备完美捕获整个输入序列上下文的能力,从而表明单层 Transformer 具有有限样本的记忆能力,并且由一个自注意力层和两个前馈神 - ICML基于威布尔–柯西分布的角 Softmax 模型用于长尾视觉识别
提出了一种新的 softmax 函数 (Wraped Cauchy Distributed Angular Softmax),可以解决视觉识别中不平衡数据和长尾数据的问题。该方法使用基于高斯核的数据智能,并且可以对类别的角度表示进行分布,可 - 具有转移学习的隐私保护卷积神经网络训练
这篇论文提出了一种基于同态加密技术的隐私保护卷积神经网络训练的实现解决方案,并应用转移学习简化了 CNN 的训练问题。
- CLIP 也是高效分割器:一种文本驱动的弱监督语义分割方法
利用 Contrastive Language-Image Pre-training (简称 CLIP) 模型进行图像级标注的弱监督语义分割 (WSSS) 是一项具有挑战性的任务。本文提出了一种 CLIP-ES 框架,结合了 softmax - 基于隐私保护的神经架构搜索
使用安全多方计算方法构建隐私保护的神经架构搜索框架,其中使用重新设计的 ReLU 和 Max-pooling 保混乱电路以及对秘密共享的 Softmax 函数的新替代方法,分析和实验表明其在安全性,效率和准确性方面具有优越性。
- 采用动态边界缩放的约束优化方法有效防御自然语言处理后门攻击
本研究提出了一种新的用于语言处理的反漏洞优化方法,通过使用动态降温系数来改变损失函数,逐渐聚焦于真实触发器上,并使用降温回滚机制来避免局部最优,并应用于 1600 个模型,发现该技术有效地在 3 个主流自然语言处理任务中检测和移除了 4 种 - ACL神经语言模型的结构弱点:被盗概率
本文研究了神经网络语言模型的内部偏差,并证明了嵌入空间中的概率上限与其凸壳边界上的单词相关。
- ICLR具有稀疏性的判别高斯混合模型
通过稀疏贝叶斯学习,提出了一种基于判别高斯混合模型(Sparse Discriminative Gaussian Mixture, SDGM)的分类器。实验结果表明,该方法优于现有的基于 softmax 的判别模型。
- Log-Sum-Exp 和 Softmax 函数的准确计算
本文主要研究并比较了计算 log-sum-exp 函数或 softmax 函数时常见的算法,并通过舍入误差分析和函数条件数进行精度评估,得出了使用 shifted formulas 的矩阵运算相对于不使用的方法更加准确的结论。
- 最大最小规范化下的胶囊网络
本文研究了 Capsule Networks 中的 Softmax Function 在正常化路由系数时存在的问题,并提出了 Max-Min 正常化方法。经实验证明,使用 Max-Min 方法能够在提高测试准确性的同时,允许更多路由次数而不 - 通过可学习的单调逐点非线性性消除 Softmax 瓶颈
提出一种在 softmax 函数之上学习参数单调函数的方法,理论上和实验上都优于传统的 line-softmax 方法,在自然语言模型的应用方面具有潜在的可拓展性。
- ICLR连续输出序列到序列模型的 von Mises-Fisher 损失训练
本研究提出了一种用连续嵌入层替代 Softmax 层的技术,使得生成的语言模型具有较大的词汇表并且具有比传统模型更高效的训练速度,在神经机器翻译任务上的表现也保持在业界领先水平。
- 使用修正线性单元(ReLU)的深度学习
本研究介绍了在深度神经网络中使用修正线性单元作为分类函数来预测类别,通过将神经网络中的倒数第二层的输出与权重参数相乘得到原始分数,再使用修正线性单元函数进行阈值处理,最后通过 argmax 函数得到分类预测。
- MMSoftmax 函数的特性及其在博弈论和强化学习中的应用
本文利用凸分析和单调算子理论来推导 softmax 函数的其他性质,揭示其与对数 - 求和 - 指数函数之间的单调梯度映射关系,同时利用这种联系表明了其反温度参数决定了 softmax 函数的 Lipschitz 和共同强制性质,并通过一个