基于 Transformer 的多编码器学习和流融合的端到端自动语音识别

Mar, 2021

基于 Transformer 的多编码器学习和流融合的端到端自动语音识别

Multi-Encoder Learning and Stream Fusion for Transformer-Based End-to-End Automatic Speech Recognition

Timo Lohrenz, Zhengyang Li, Tim Fingscheidt

TL;DR通过研究多种融合技术和多编码器学习方法，以实现对变压器架构的最佳融合，仅在训练期间对两个编码器 - 解码器组合的多头注意权重输出进行加权组合，在推理时使用幅度特征编码器，成功地在 WSJ 上展示了一致的改进，并通过简单的后期融合在 WSJ 上取得了状态 - of-the-art 的表现。

Abstract

stream fusion, also known as system combination, is a common technique in automatic speech recognition for traditional hybrid hidden Markov model approaches, yet mostly unexplored for modern deep neural network e

stream fusion transformer end-to-end model multi-encoder learning speech recognition

发现论文，激发创造

基于 Transformer 的端到端多说话人语音识别

本文研究使用 Transformer 模型替代基于循环神经网络的编码器 - 解码器模型，应用于多说话者语音识别和神经束形成器中的遮盖网络，得以有效处理混响信号，并加入外部去混响预处理方法进行对比试验。实验证明，在单通道和多通道任务下，基于 Transformer 的模型相对错误率降低达 40.9% 和 25.6%，在混响环境中的相对错误率降低达 41.5% 和 13.8%。

Feb, 2020

交叉编织多模态编码器

本文提出了一种新的多模态语音和文本输入结构，使用多头交叉注意力结合预训练语音和文本编码器，并在目标问题上联合微调。所得的编码器可用于连续的令牌级别分类或对同时文本和语音进行话语级别的预测，并高效地捕获声学 - 韵律和词汇信息。

Apr, 2022

使用 Transformer 模型进行流式自动语音识别

通过使用自我注意力来模拟时间上下文信息，基于编码器 - 解码器的序列到序列模型已经在端到端自动语音识别领域取得了最先进的成果。本研究提出了一种基于 Transformer 的流式 ASR 系统，其可以在每个发音单词之后快速生成输出，因此可以应用于更广泛的 ASR 场景中。我们采用了一种时间限制的自注意力机制来实现流式语音序列的建模，同时通过触发式关注机制来优化编码器 - 解码器的关注机制。在 LibriSpeech 的测试数据上，我们的方案分别达到了 2.8% 和 7.2% 的词错误率，这是我们所知道的这个任务的最好的流式端到端 ASR 成果。

Jan, 2020

基于 Transformer-RNN-Transducer 的多任务学习和联合优化语音识别

本论文探讨了 transformer-RNN-transducer 系统的多任务学习、联合优化和联合解码方法，证明了这些方法能够有效地降低字词错误率，从而保持大型文本语料库的信息。

Nov, 2020

多通道端到端语音识别

本研究论文扩展了端到端的框架，以包含麦克风阵列信号处理以进行噪声抑制和语音增强，并能够共同优化束形成和识别架构。实验结果表明，我们的多通道端到端系统在去噪和语音增强任务上表现更好。

Mar, 2017

高效地融合预训练的声学和语言编码器用于低资源语音识别

该论文研究了如何将预训练声学编码器和预训练语言编码器融合到端到端自动语音识别模型中，以提高模型的性能，尤其是在低资源自动语音识别的情境下。实验证明，该方法比其他端到端模型在 15 小时的 CALLHOME 语料库上表现得更好。

Jan, 2021

神经机器翻译中基于 Transformer 的异构编码器扩展

通过多种异构方法的整合，设计了多编码器 Transformer，以提高翻译质量，特别对于低资源语言表现出最大 7.16 BLEU 的提升。

Dec, 2023

了解和改善序列到序列学习中编码器层融合

本研究提出了一种新的 EncoderFusion 方法，即 SurfaceFusion，它将编码器嵌入层与 Softmax 层融合，实验证明其在多种 NLP 任务中表现出色，特别是在 WMT16 Romanian-English 和 WMT14 English-French 机器翻译任务中表现最佳，取得了最新的性能记录。

Dec, 2020

使用增强记忆变换器的流播同声传译

本文提出了一种针对实时应用场景的端到端增强记忆 Transformer 编码器，成功地应用于流式同声传译任务，可以处理大量连续输入，相较于单向掩码 Transformer 模型，具有更好的延迟和质量平衡。

Oct, 2020

混合编码器用于语音分离和识别

该论文提出了一种基于中间地带的方法来处理多说话者语音识别，该方法既利用了情感识别模块类似于模块化方法的显式语音分离技术，又将混合语音信息直接纳入 ASR 模块，以减轻语音分离器所产生的错误传播，并且通过结合个体说话者信息的层来交换跨说话者的上下文信息。

Jun, 2023