本文提出了一种快速局部敏感哈希技术以近似实际点积,使我们能够将训练和推理扩展到数百万个输出类,并在三个不同的大规模识别任务上验证了我们的方法,表明与基线方法相比,我们的方法能以更快的速度(以步骤 / 总时间为单位)训练大规模模型。
Dec, 2014
本研究提出一种概率框架来自动学习选择哪些层来使用以优化 Transformer 模型的性能,用于训练一种适用于多语言机器翻译的共享 Transformer 网络,缓解梯度消失问题,从而使得深度 Transformer 网络(例如 100 层)稳定训练,并在机器翻译和语言建模任务中实现了更好的性能。
Sep, 2020
本研究提出了一种新的深度循环神经网络架构,残差 LSTM,该架构通过增加空间快捷路径来实现高效训练,与之前的工作相比表现更佳。
Jan, 2017
本文介绍了一种通过在 RNN 中的输入和输出嵌入层共享参数来压缩模型参数的方法,实验证明该方法可大幅减小模型参数的大小,但仍能在自然语言处理中保持模型的准确性和性能表现。
Nov, 2017
本文介绍了一种基于深度生成模型的架构,该架构在训练过程中使用多层的潜在变量,并且在所有潜在变量和输出之间包括确定性路径,以及提供了一组更丰富的连接,这些连接在推理和生成计算之间实现了更有效的信息通信。我们在重构分布中引入了轻量级自回归模型以提高自然图像的性能。实验表明,我们的方法在标准图像建模基准测试中达到了最先进的性能,并且在没有标签信息的情况下可以暴露潜在的类结构,同时可以提供自然图像中被遮挡区域的令人信服的估计。
Dec, 2016
本文中,我们设计了一种使用残差学习的卷积神经网络,并研究了其对于嘈杂的远程监督关系抽取任务的影响,结果表明即使在只有 9 层 CNN 的情况下,使用恒等映射也可以显著提高远程监督关系抽取的性能。
Jul, 2017
本文提出了纠缠残差映射来推广残差连接的结构,并评估它们在迭代学习表示方面的作用。研究表明,在 CNN 和 Vision Transformer 中,纠缠稀疏映射可以帮助泛化,而正交映射会损害性能。在循环网络方面,正交残差映射形成了一种对时间变化序列的归纳偏差,这会降低处理时间不变的任务的准确性。
Jun, 2022
本文介绍了一种新的结构化 dropout 形式 ——LayerDrop,该形式可在训练过程中实现正则化效果,在推理时允许有效的剪枝。作者通过实验证明了该方法对机器翻译、语言模型、文本摘要、问答和语言理解等基准测试的提升,并提出使用该方法可以得到更高质量的类 BERT 模型。
Sep, 2019
本文研究了基于深度自回归 Transformer 模型在语言建模和语音识别中的应用,探索了配置 Transformer 模型进行语言建模的方法和深度 Transformer 语言模型是否需要位置编码,证明了深度 Transformer 语言模型可以自动利用序列中的位置信息,并能在语音识别模型中得到应用。
May, 2019
大型语言模型在内存、延迟和能耗方面常常面临困难。本文探讨了层稀疏性的实用性,并描述了一种基于 Token 级路由的径像网络方法,以减少生成整个序列所需的计算资源,实现更大容量的网络并明显降低计算和服务成本。
Apr, 2024