- ICMLMultiMax:稀疏和多模态的注意力学习
通过提出 MultiMax 这种分段可微凸函数,根据输入条目范围自适应调节输出分布,我们解决了 SoftMax 及其变体在多模态和稀疏性之间的权衡问题,成功产生了抑制无关条目而保留多模态的分布,对图像分类、语言建模和机器翻译产生了有益的影响 - 在 Transformer 中重用 Softmax 硬件单元进行 GELU 计算
通过将 GELU 计算映射到 softmax 运算符,本文提出了一种在硬件中重新利用预设计的 softmax 硬件单元来计算 GELU 的方法,实验结果证明这种方法不会减少代表性自然语言处理应用的准确性,并且可以平均降低 6.1% 的硬件面 - 深度学习分类器中的交叉熵是不必要的 -- 仅需要 ISBE 错误
该论文介绍了 ISBE 功能,证明了在深度学习分类器中计算熵是多余的,同时指出误差可以直接发送到模型网络,且使用 SoftMax 以及其他激活函数时结果不会下降,还可以节省总时间的 3%。
- 关于编码器型浅层变换器的收敛性研究
该研究建立了关于编码器式浅层 Transformer 的全局收敛理论,从体系结构、初始化和在有限宽度范围内的缩放的角度进行了现实情景的探究。研究重点在于如何解决 Transformer 核心组成部分 softmax 的问题。研究表明,在实践 - SimSC:基于温度学习的语义对应简易框架
本文提出了一个名为 SimSC 的简单框架,通过在特征骨干基础上进行语义匹配来解决问题。通过设置适当的 softmax 温度,可以缓解过度平滑匹配度分布并改善特征质量,使用学习模块来预测优化温度,该模块与骨干和温度一起在线更新,易于与各种类 - 大间隔 Softmax 中概率相关的梯度衰减
本文探究了在神经网络框架中常用的 Softmax,在训练过程中引入渐变衰减超参数控制概率相关的梯度衰减率。作者通过实验发现,梯度衰减率随置信概率上升而凸凹变化,且使用小梯度衰减的优化方式表现出类似于课程学习的顺序,可以说明较大间距的 Sof - 文本分类中的 Softmax 不确定性逼近再探讨
本文深入分析了 Monte Carlo Dropout 方法和 softmax 方法的应用,发现虽然前者可以提供更好的不确定性估计,但后者可以在更低的计算成本下提供竞争力的不确定性估计,并且适合不具备大量计算资源的模型。
- 循环焦点损失
本文提出一种新的周期性的焦点损失函数,证明其是比交叉熵 softmax 损失函数或者焦点损失函数更普适的损失函数,并推出了数个实验证据来证明周期性的焦点损失函数对于平衡,不平衡或长尾数据集都提供了更好的性能。
- ACL加速 Entmax
本文研究了针对语言处理中神经网络常用的 softmax 在文本生成中出现的问题,提出了一种替代 alpha-entmax 的方法,并在机器翻译任务中取得了与 alpha-entmax 相当或更好的性能。
- ICML神经网络分类器作为互信息评估器
本文提出了一种使用交叉熵和 softmax 作为互信息评估器的神经网络分类器的新视角,并且在数据集不平衡时,开发了一种新的 softmax 形式,该形式可以将分类器转换为互信息评估器。实验结果表明,该形式可以提高分类准确性,特别是对于不平衡 - 简单网络架构优化图神经网络
本文提出了一种基于图神经网络的特征选择方法,通过解耦节点特征聚合和网络深度,采用 softmax 和 Hop-Normalization 技术,使得模型在节点分类任务中取得了 64% 以上的精度,其学习到的精选参数可以用于研究预测任务中特征 - ICML两种高效和信息丰富的负采样分布
本研究提出两种分布,实现了真正自适应的采样方案,能够在近乎常数的时间内产生负样本,相较于流行的负采样算法,基于 CPU 实现的本研究方法在 Wall-Clock 时间和准确性方面都显著优于最优化的 Tensorflow 实现在 NVIDIA - ICLR重新思考基于梯度的属性方法在模型可解释性中的作用
该研究分析了模型 input-gradients 在解释性方面的问题,提出了将标准 softmax-based 分类器的 logits 重新解释为未归一化的数据密度,证明了 input-gradients 可以被视为隐含于判别模型中的类条件 - ICML谈论分类概率的贝叶斯方法
提出一种使用贝叶斯方法中的随机变量作为分类任务中的 softmax 的替代品,以更好地估计不确定性和模型校准,并在多种挑战性任务中提供了一致的泛化性能提高。
- 图像超分辨率的分层反投影网络
本文提出了一种基于深度学习和特征分析的超分辨率技术 Hierarchical Back Projection Network (HBPN),采用多个 HourGlass 模块进行自底向上和自顶向下的跨尺度特征处理,并使用新的基于 Softm - 层级 softmax 在大规模分类任务中的有效性
本文比较了 Softmax 和 Hierarchical Softmax 对于 LSHTC 数据集的性能表现,结果发现在类别数量较多时,Hierarchical Softmax 的表现会下降。
- ICML再探 Softmax Bellman Operator: 新的益处与新的视角
本文研究了在强化学习领域中,softmax 对值函数本身的影响,表明其虽然与 Bellman operator 的收敛性质有冲突,但在值函数近似的情况下,结合深度 Q 学习可以产生更出色的 Q-function 性能,并可减少 overes - 加热 Softmax 嵌入
本研究通过训练 softmax 函数不同温度值的分类器,得到不同紧致性水平的特征嵌入,提出了一种 “加热” 策略,逐步训练分类器以实现在多个度量学习测试中的最新性能。
- Sigsoftmax:Softmax Engpass 的重新分析
该论文提出了一种输出激活函数 sigsoftmax 用于解决神经网络语言建模中的 softmax 瓶颈问题,它由指数函数和 sigmoid 函数的乘积构成,相对于 softmax 和混合 softmax,在语言建模实验中表现更好。
- 基于核采样的自适应采样 Softmax
本文提出了基于核函数的采样方法并发展了高效的采样算法以减少对于大量样本情况下传统采样方法的偏倚问题。实验结果表明此方法相较于传统采样方法偏差较小并且需要的样本数更少。