3M:语音识别的多损失、多路径和多层级神经网络
提出了一种流式的、真正的多语言 Conformer 模型,其中融合了 MoE 层以提高推理效率,经在 12 种语言上评估,相对于基线获得 11.9% 的相对 WER 改进;在不使用语言信息的前提下,与使用 Ground Truth 信息的适配器模型相比,我们的 MoE 模型实现了类似的 WER 和相似数量的参数激活,并通过多语言浅层融合实现了约 3% 的相对 WER 改进。
May, 2023
本文提出一种基于 MoE 的语音识别模型 SpeechMoE,引入稀疏 L1 损失和平均重要性损失来控制路由器激活的稀疏性和提高门值的多样性,并使用了新的路由器架构,可以同时利用共享嵌入网络的信息和不同 MoE 层的分层表示。实验结果表明,该模型在计算成本可比的情况下,相对于传统的静态网络,可以提供 7.0%-23.0%的相对 CER 改进。
May, 2021
本文提出了一种新颖的多级建模单元方法,通过编码器块将音节作为建模单元,解码器块处理字符级建模单元,实现了汉语语音识别。实验表明,该方法在 AISHELL-1 语料库上取得了很好的结果,在 Conformer 和 Transformer 骨干网上的 CER 分别为 4.1%/4.6%和 4.6%/5.2%。
May, 2022
本文提出了一种基于 CTC 目标的自动语音识别(ASR)的简单而高效的辅助损失函数,结合随机深度训练,应用于最近提出的 Conformer 网络,能够在没有语言模型的情况下实现 9.9%的单词错误率和 5.2%的字符错误率。
Feb, 2021
通过学习仅激活训练和推理中的一部分参数,混合专家 (MoE) 被提出作为一种高效能的能源路径,用于更大、更强大的语言模型。本文通过将 MoE 层替代所有前馈网络 (FFN) 层,展示了一个简单有效的 ASR 模型,并基于统一的双向注意解码器 (U2++) 实现了流式和非流式解码模式。我们希望本研究能促进无损耗部署的语音基础模型的扩展研究。
Apr, 2024
本论文提出了四解码器联合建模 (4D) 的 CTC,关注机制,RNN-T 和掩码预测,旨在通过联合建模提高模型稳健性,在应用场景下轻松切换四个解码器,并通过一次解码方法进一步提高性能。
Dec, 2022
本文介绍了连接主义时间分类(CTC)和基于注意力的编码器解码器(AED)联合训练在自动语音识别(ASR)中的应用,提出了两种融合方法,即 logits 的直接相加(DAL)和最大概率的保留(PMP),并引入辅助损失正则化以加速模型收敛和提高准确性。实验结果表明,DAL 方法在注意力修正方面效果更好,而 PMP 方法在 CTC 前缀搜索和贪婪搜索方面表现出色。
Aug, 2023
使用分层多任务学习进行基于 CTC 的语音识别,添加辅助任务可提高识别结果表现,不同的实验变量,低资源下标准多任务学习表现优异,最佳结果为采用分层多任务学习与预训练相结合,可将错误率降低 3.4% 绝对值。
Jul, 2018
本文提出了一种名为多尺度协作(MultiScale Collaborative)的框架,通过引入块尺度协作机制和上下文尺度协作增强梯度反向传播,并让每个编码器块学习细粒度的表示,以增加神经机器翻译模型的深度,从而提高翻译质量,并在多项任务中证明了该方法的有效性。
Apr, 2020
近年来,由于转换器等深度学习架构的进展,端到端(E2E)自动语音识别(ASR)模型的演变令人瞩目。在 E2E 系统的基础上,研究人员通过使用音素模型对 E2E 模型的 N 个最佳假设进行重新评分,实现了相当大的准确性提升。我们研究了驱动这些改进的潜在机制,并提出了一种高效的联合训练方法,其中 E2E 模型与多样的建模单元联合训练。这种方法不仅使音素和字素模型的优势得到了衔接,还揭示出以这些多样的建模单元协同方式使用可以显著提高模型的准确性。我们的发现为在开发更可靠准确的 ASR 系统时,异构建模单元的最佳整合提供了新的见解。
Jun, 2024