Speechformer：减少直接语音翻译中的信息损失

EMNLPSep, 2021

Speechformer：减少直接语音翻译中的信息损失

Speechformer: Reducing Information Loss in Direct Speech Translation

Sara Papi, Marco Gaido, Matteo Negri, Marco Turchi

TL;DR提出了 Speechformer 的架构，该架构通过减少注意层中的内存使用，避免了初始的失真压缩，并根据更具信息的语言标准仅在较高级别上聚合信息，该架构在三种语言对 (en->de/es/nl) 上的实验表明了其有效性。

Abstract

transformer-based models have gained increasing popularity achieving state-of-the-art performance in many research fields including speech translation. However, Transformer's quadratic complexity with respect to the input sequence length prevents its adoption as is with audio signals,

transformer-based models speechformer architecture audio signal compression linguistic information speech translation

发现论文，激发创造

SpeechFormer++：一种用于泛语言学语音处理的层次化高效框架

本文提出了 SpeechFormer++ 框架，以一种能够有效处理语音的方式来使用 Transformer 技术进行语音处理，实现了在情感识别、抑郁症分类和阿尔茨海默病检测等领域超越当前最先进方法的结果。

Feb, 2023

Squeezeformer：自动语音识别的高效 Transformer

通过重新审视 Conformer 架构的设计选择，我们提出了 Squeezeformer 模型，展示其在同一训练方案下一致优于当前最先进的 ASR 模型，取得了 7.5％，6.5％和 6.0％的字错率（WER）结果，比具有相同数量的 FLOPs 的 Conformer-CTC 更好 3.1％，1.4％和 0.6％。

Jun, 2022

使用增强记忆变换器的流播同声传译

本文提出了一种针对实时应用场景的端到端增强记忆 Transformer 编码器，成功地应用于流式同声传译任务，可以处理大量连续输入，相较于单向掩码 Transformer 模型，具有更好的延迟和质量平衡。

Oct, 2020

Small-E：用线性注意力实现高效语音合成的小型语言模型

最近关于文本到语音合成（TTS）的研究表明，使用语言模型驱动的 TTS 展示了卓越的能力，能够实现自然度和零样本声音克隆。本文提出使用新兴递归架构替代变压器，并引入专门的交叉关注机制以减少重复和跳跃问题。结果，我们的架构能够在长音频样本上高效训练，并在相同规模的基准模型上实现最先进的零样本声音克隆。

Jun, 2024

XNOR-FORMER: 长语音 Transformer 准确近似学习

本研究开发出一种新型的线性变压器，通过检验自我关注中关键查询产品的特性，发现其在语音识别和语音摘要方面优于现有的方法。

Oct, 2022

Multiformer：基于可配置头部的 Transformer 模型的直接语音翻译

本文提出了一种基于 Transformer 的新模型 Multiformer，它可以根据任务需要在不同的头上应用不同的注意力机制，从而有力地解决了长序列和相邻 token 冗余等问题。同时，我们发现各头权重分布均匀的模型可以取得更好的效果。

May, 2022

一种简化了的全量化 Transformer 用于端到端语音识别

本研究通过探究去除特定模块的影响以及减少神经网络的数字精度的方法，成功地简化和压缩了基于 Transformer 编码器 - 解码器的端到端语音识别架构，实验结果表明，我们能够通过将数字精度减少到 8 位定点精度，将全精度模型的参数数量减小并将模型进一步压缩 4 倍，同时维持模型高精度。

Nov, 2019

基于 Transformer 序列到序列模型的自动语音识别纠错

本文介绍了一种用于自动语音识别（ASR）的简单而有效的后处理模型。我们的模型使用基于 Transformer 的编码器 - 解码器架构，将 ASR 模型输出 “翻译” 成语法和语义正确的文本。作者探讨了不同的规范化和优化策略，并表明需要广泛的数据增强和预训练权重的初始化才能实现良好的性能。在 LibriSpeech 基准测试中，我们的方法在词错误率上表现优异，尤其是在更嘈杂的 dev-other 和 test-other 部分的评估数据集上。我们的模型还通过 6-gram 语言模型重新评分超过了基础模型，并接近于使用 Transformer-XL 神经语言模型重新评分的性能。

Oct, 2019

低资源端到端口音语音识别的多遍训练和交叉信息融合

本研究提出了一种基于 Conformer 的架构，即 Aformer，利用大型非方言和有限口音训练数据从声学信息中提取互补的音频信息，并提出了多通道训练和三种跨信息融合方法，用于从 Aformer 的通用编码器和口音编码器中有效地融合信息，实验结果表明，该方法在口音英语和普通话 ASR 任务上相对于强基线 Conformer 的 6 个领域内外测试数据的单词 / 字符错误率降低了 10.2％到 24.5％。

Jun, 2023

动态隐变量感知器实现高效语音翻译

该研究提出了一种使用感知器编码器和动态潜在访问训练的语音到文本转换技术，这种技术在 MuST-C 数据集上的三种语言中可以与 Transformer 基线模型的性能相匹配，并且可以在推理过程中灵活部署，适应多种计算预算，而不会导致显著降低翻译质量。

Oct, 2022