- 关于扰动 - Softmax 和扰动 - Argmax 概率分布的统计表示特性
通过对凸性和可微性的研究,我们探索了 Gumbel-Softmax 和 Gumbel-Argmax 概率分布模型的统计条件,并将这种框架扩展到高斯 - Softmax 和高斯 - Argmax 等通用概率模型,最终得出两组参数满足这些假设并 - 间接参数化具体自编码器
通过间接参数化的 CAE 模型 (IP-CAEs),在特征选择方面取得了显著而一致的改进,在多个数据集上能够更好地实现重建和分类的泛化能力和训练时间。
- 基于知识驱动差分滤波抽样的卷积神经网络高效剪枝
通过知识驱动的差分滤波器采样 (KDFS) 和带蒙版滤波器建模 (MFM) 框架进行过滤修剪,在不牺牲准确度的前提下,全局剪除冗余滤波器显著降低计算和内存开销。
- EMNLP通过可挂载的子词替换进行字符级白盒对抗攻击来攻击变形金刚
我们提出了第一个针对 transformer 模型的字符级白盒对抗攻击方法。我们的方法主要包含三个步骤:选择最脆弱的单词,将其拆分成次标记,以及使用适当的替换次标记。我们的实验结果表明,与先前的攻击方法相比,我们的方法在成功率和编辑距离方面 - ECCV多语言文本识别的任务分组
本篇论文提出了一种使用 Gumbel-Softmax 的自动多语言文本识别方法,引入了任务分组损失和加权识别损失,以允许模型和分组模块的同时训练,并验证了将一些语言分为组所带来的参数共享的好处。
- 物理感知可微离散协同设计用于衍射光学神经网络
本文提出了一种新的设备到系统硬件软件协同设计框架,使用 Gumbel-Softmax 实现了不同 iable 离散映射到 DONN 的前向函数,使得 DONN 在低精度光学设备上表现出显著的优势,并且已在实验中进行验证。
- AAAI使用分层随机注意力进行 Transformer 不确定性估计
本文提出了一种新的方法,使得 transformer 模型具有不确定性估计能力,同时保持原始预测性能,并且理论和实验结果表明,该方法在包括文本分类在内的任务上具有最佳的预测性能和不确定性平衡
- KDD无监督可微分多方面网络嵌入
本文提出了一种多方面的网络嵌入框架,名为 asp2vec,该框架通过动态分配每个节点的不同方面,从而提高了嵌入质量,并能够轻松地扩展到异构网络。
- ICML多任务学习的分支学习
本论文提出了一种自动的多任务学习算法,通过提出一种树形结构设计空间和将树形分支操作作为 Gumbel-Softmax 采样过程,实现了可微网络分裂与优化,实现了多任务网络的有效设计。
- AAAI为 TableQA 生成语义上有效的对抗性问题
本文提出 SAGE(Semantically valid Adversarial GEnerator),一种用于 TableQA 白盒攻击的 Wasserstein 序列到序列模型,结合最小风险训练、SIMILE 和实体去词化,在保留原问题 - ACL选择性机制如何提高自注意力网络?
本文通过评估实现灵活通用的 Gumbel-Softmax 的选择性自注意力网络(SSANs)的性能,在多个代表性 NLP 任务中,包括自然语言推理、语义角色标注和机器翻译,实验结果显示,SSANs 一致优于标准 SANs 并通过良好设计的探 - DADA: 可微分自动数据增强
本研究提出 Differentiable Automatic Data Augmentation (DADA) 算法,使用 Gumbel-Softmax 方法实现对离散的数据增强方法的选择,引入 RELAX 无偏梯度估计方法,提高了数据增强 - 可逆高斯重新参数化:重访 Gumbel-Softmax
我们提出了一种更具模块化和灵活性的可重参数化分布族,其中通过可逆函数将高斯噪声转化为一热近似,这个可逆函数由一个修改过的 softmax 组成,并且可以包含多种不同的转换以服务于不同的特定目的。我们的构造在理论上具有 Gumbel-Soft - 通过学习参数分配实现灵活的多任务网络
本文提出了一种新颖的多任务学习方法,其中借助了多任务神经网络的参数共享,通过学习精细的参数共享模式来提高模型性能,该模式通过二进制变量实现,与模型参数共同反向传播学习,并在 Omniglot 基准测试中实现了 17%相对误差减小。
- ACL具有鉴别性聚类嵌入的小型文本分类器
通过学习硬词聚类并使用 Gumbel-Softmax 分布最大化潜在聚类并最小化任务误差,我们减少了神经自然语言处理方法中嵌入参数的模型大小。我们提出了一些变体,可以选择性地为单词分配额外的参数,从而在仍然保持参数有效的情况下进一步提高准确 - 基于多尺度层级注意力网络的动作识别
本文提出了一种称为 Hierarchical Multi-scale Attention Network (HM-AN) 的多层次自然渐变神经网络,融合 Hierarchical Multi-scale RNN 和注意机制来处理动作识别问题 - 带有 Gumbel-Greedy 解码的神经机器翻译
本文提出了一种使用 Gumbel-Greedy Decoding 训练生成网络来预测翻译的方法,该方法使用 Gumbel-Softmax 重新参数化来实现对离散单词序列的可微分训练,实验证明其有效性。
- 将判别学习中的知识转移至生成式视觉对话模型的最佳方法
本文提出一种新的训练神经序列模型,将判别式对话模型的知识传递到生成式对话模型中,通过 Gumbel-Softmax 逼近离散分布,建立了一个可端对端训练的生成式视觉对话模型,并在视觉对话数据集上显著优于现有模型 (10 个问题中有 2.67 - Gumbel-Softmax 分类再参数化
本论文介绍了一种新的 Gumbel-Softmax 梯度估计器,用于处理类别离散型变量,能够有效地支持半监督学习以及结构化输出预测和无监督生成建模任务,并且可以通过渐进式的方式向分类型分布过渡。