深度残差输出层用于神经语言生成

ICMLMay, 2019

深度残差输出层用于神经语言生成

Deep Residual Output Layers for Neural Language Generation

Nikolaos Pappas, James Henderson

TL;DR本研究提出了一种深度残差输出映射方法，通过层与层之间的随机失活，更好地捕捉输出空间的结构，避免过拟合，经实验证明有助于提高自然语言生成任务的性能。

Abstract

Many tasks, including language generation, benefit from learning the structure of the output space, particularly when the space of output labels is large and the data is sparse. State-of-the-art neural language models

language generation neural language models output space structure shared output label mappings deep residual output mapping

发现论文，激发创造

具有大输出空间的深度网络

本文提出了一种快速局部敏感哈希技术以近似实际点积，使我们能够将训练和推理扩展到数百万个输出类，并在三个不同的大规模识别任务上验证了我们的方法，表明与基线方法相比，我们的方法能以更快的速度（以步骤 / 总时间为单位）训练大规模模型。

Dec, 2014

深度变换器与潜在深度

本研究提出一种概率框架来自动学习选择哪些层来使用以优化 Transformer 模型的性能，用于训练一种适用于多语言机器翻译的共享 Transformer 网络，缓解梯度消失问题，从而使得深度 Transformer 网络（例如 100 层）稳定训练，并在机器翻译和语言建模任务中实现了更好的性能。

Sep, 2020

残差 LSTM: 远场语音识别深度循环神经网络的设计

本研究提出了一种新的深度循环神经网络架构，残差 LSTM，该架构通过增加空间快捷路径来实现高效训练，与之前的工作相比表现更佳。

Jan, 2017

适用于循环神经网络语言模型的瘦身嵌入层

本文介绍了一种通过在 RNN 中的输入和输出嵌入层共享参数来压缩模型参数的方法，实验证明该方法可大幅减小模型参数的大小，但仍能在自然语言处理中保持模型的准确性和性能表现。

Nov, 2017

深度、分层生成模型的架构设计

本文介绍了一种基于深度生成模型的架构，该架构在训练过程中使用多层的潜在变量，并且在所有潜在变量和输出之间包括确定性路径，以及提供了一组更丰富的连接，这些连接在推理和生成计算之间实现了更有效的信息通信。我们在重构分布中引入了轻量级自回归模型以提高自然图像的性能。实验表明，我们的方法在标准图像建模基准测试中达到了最先进的性能，并且在没有标签信息的情况下可以暴露潜在的类结构，同时可以提供自然图像中被遮挡区域的令人信服的估计。

Dec, 2016

深层残差学习用于弱监督下的关系抽取

本文中，我们设计了一种使用残差学习的卷积神经网络，并研究了其对于嘈杂的远程监督关系抽取任务的影响，结果表明即使在只有 9 层 CNN 的情况下，使用恒等映射也可以显著提高远程监督关系抽取的性能。

Jul, 2017

纠缠残余映射

本文提出了纠缠残差映射来推广残差连接的结构，并评估它们在迭代学习表示方面的作用。研究表明，在 CNN 和 Vision Transformer 中，纠缠稀疏映射可以帮助泛化，而正交映射会损害性能。在循环网络方面，正交残差映射形成了一种对时间变化序列的归纳偏差，这会降低处理时间不变的任务的准确性。

Jun, 2022

结构化丢弃降低 Transformer 深度

本文介绍了一种新的结构化 dropout 形式 ——LayerDrop，该形式可在训练过程中实现正则化效果，在推理时允许有效的剪枝。作者通过实验证明了该方法对机器翻译、语言模型、文本摘要、问答和语言理解等基准测试的提升，并提出使用该方法可以得到更高质量的类 BERT 模型。

Sep, 2019

深度转换器语言建模

本文研究了基于深度自回归 Transformer 模型在语言建模和语音识别中的应用，探索了配置 Transformer 模型进行语言建模的方法和深度 Transformer 语言模型是否需要位置编码，证明了深度 Transformer 语言模型可以自动利用序列中的位置信息，并能在语音识别模型中得到应用。

May, 2019

径向网络：高性能大型语言模型的动态层路由

大型语言模型在内存、延迟和能耗方面常常面临困难。本文探讨了层稀疏性的实用性，并描述了一种基于 Token 级路由的径像网络方法，以减少生成整个序列所需的计算资源，实现更大容量的网络并明显降低计算和服务成本。

Apr, 2024