I3D：带有输入依赖的动态深度的 Transformer 架构用于语音识别

Mar, 2023

I3D：带有输入依赖的动态深度的 Transformer 架构用于语音识别

I3D: Transformer architectures with input-dependent dynamic depth for speech recognition

Yifan Peng, Jaesong Lee, Shinji Watanabe

TL;DR该研究提出了一种新的 Transformer 编码器模型，并利用输入依赖动态深度 (I3D) 实现了性能 - 效率的良好均衡，该方法可用于压缩模型大小并通过迭代层剪枝处理以提高模型性能，同时对门控概率和输入依赖性进行了分析以更好地理解深度编码器。

Abstract

Transformer-based end-to-end speech recognition has achieved great success. However, the large footprint and computational overhead make it difficult to deploy these models in some real-world applications. model compression techniques can reduce the model size and speed up inference, b

transformer-based speech recognition model compression input-dependent dynamic depth performance-efficiency trade-offs iterative layer pruning

发现论文，激发创造

快速深度自适应变压器

本文提出基于互信息和重构误差两种方法来测量输入词语的难度和估计相应的自适应深度，从而摆脱判停单元，并提高深度自适应模型的速度和稳定性。实验证明，该方法能够在保持高准确性的同时，加快原始 Transformer 速度（高达 7 倍），并提高效率和鲁棒性，相对于其他深度自适应方法具有显著优势。

Apr, 2020

USDC: 统一的静态与动态压缩方法用于视觉 Transformer

将静态压缩和动态压缩技术共同融合，从而获得一个输入自适应的压缩模型，以更好地平衡总体压缩比和模型性能，并通过子组门扩充技术解决性能下降问题。

Oct, 2023

自适应深度变压器

本文介绍了一种 Transformer 模型，它可以在网络的不同阶段进行输出预测，并调整每个步骤所应用的不同图层，以调整计算量和模型容量。通过对 IWSLT 德英翻译的实验，我们的方法与 well tuned 换基础变压器的精度相匹配，同时只使用不到四分之一的解码器层数。

Oct, 2019

动态隐变量感知器实现高效语音翻译

该研究提出了一种使用感知器编码器和动态潜在访问训练的语音到文本转换技术，这种技术在 MuST-C 数据集上的三种语言中可以与 Transformer 基线模型的性能相匹配，并且可以在推理过程中灵活部署，适应多种计算预算，而不会导致显著降低翻译质量。

Oct, 2022

一种用于 3D 物体检测的端到端 Transformer 模型

3DETR 是一种基于 Transformer 的端到端目标检测模型，适用于 3D 点云，相较于现有的检测方法，它需要最少的修改，可以通过将 3D 领域知识整合进去得到进一步的改进，在 ScanNetV2 数据集上，相比于 VoteNet 基线具有 9.5% 更好的性能，并且适用于其他 3D 任务。

Sep, 2021

深度变换器与潜在深度

本研究提出一种概率框架来自动学习选择哪些层来使用以优化 Transformer 模型的性能，用于训练一种适用于多语言机器翻译的共享 Transformer 网络，缓解梯度消失问题，从而使得深度 Transformer 网络（例如 100 层）稳定训练，并在机器翻译和语言建模任务中实现了更好的性能。

Sep, 2020

R2D2: 递归 Transformer 基于可微分树的可解释分层语言建模

本文提出了一种基于递归 Transformer 模型的分层过程的方法，并将双向语言模型预训练目标扩展到此体系结构，试图预测每个单词给定其左右抽象节点。实验结果表明，我们的方法在语言建模和无监督解析方面非常有效。

Jul, 2021

一种简化了的全量化 Transformer 用于端到端语音识别

本研究通过探究去除特定模块的影响以及减少神经网络的数字精度的方法，成功地简化和压缩了基于 Transformer 编码器 - 解码器的端到端语音识别架构，实验结果表明，我们能够通过将数字精度减少到 8 位定点精度，将全精度模型的参数数量减小并将模型进一步压缩 4 倍，同时维持模型高精度。

Nov, 2019

Speechformer：减少直接语音翻译中的信息损失

提出了 Speechformer 的架构，该架构通过减少注意层中的内存使用，避免了初始的失真压缩，并根据更具信息的语言标准仅在较高级别上聚合信息，该架构在三种语言对 (en->de/es/nl) 上的实验表明了其有效性。

Sep, 2021

DyTox：使用动态令牌扩展的 Transformers 进行持续学习

提出了一种基于 Transformer 架构和共享编码器 / 解码器框架的策略，采用动态扩展特殊标记以使解码器网络适用于任务分布，从而在大数据集上取得优异结果，且不需要超参数调整。

Nov, 2021