模块化混合自回归传感器
本文提出了一种新的文本表示和训练框架,用于对端到端自动语音识别模型进行内部语言模型(LM)的有效适应,仅使用新域的文本数据。实验表明这种方法能够显著提高模型的准确性并适用于不同的数据集。
Feb, 2022
该研究介绍了在 discriminative training framework 中如何在 hybrid autoregressive transducer (HAT) 模型的学习中引入语言模型 (LMs) 来缓解训练和推理过程中使用 LMs 存在的差距。在浅层融合和重甄时,使用 LMs 显着提高了仅在训练期间极少见的单词的识别准确性。
Apr, 2022
提出了一种新的混合注意力编码器 - 解码器(HAED)语音识别模型,通过分离声学模型和语言模型,以保留传统混合自动语音识别系统的模块化,实现了对传统基于文本的语言模型自适应技术的使用,从而在相对于纯 AED 模型在领域外文本数据进行语言模型自适应时实现了 21% 的词错误率(WER)改进,并且在一般测试集上只有微小的词错误率(WER)退化。
Sep, 2023
本文提出并评估了基于 transformer 的声学模型在混合语音识别中的应用。通过讨论不同的建模选择,包括各种位置嵌入方法及迭代损失等,我们证明了在 Librispeech 基准测试中使用 transformer 模型相比其他模型性能更优越,且结合神经网络进行二次评分,我们的方法可以达到最先进的结果。
Oct, 2019
本文提出了一种新的方法,利用未标记的语音数据对递归神经网络转录器端对端自动语音识别系统进行无监督的微调和自我训练,其中包括引入多重假设 RNN-T 损失以缓解 ASR 错误对无标记数据的影响,并在 Librispeech,Wall Street Journal(WSJ),Aurora-4 和 CHiME-4 数据集上进行实验,显著提高了系统性能。
Jul, 2022
本文提出了一种叫做混合回归翻译的翻译模型,它结合了自回归翻译和非自回归翻译模式的优势,通过在自回归过程中预测部分结果,再通过非自回归方式填充其余结果的方式,开发出了一种基于这两种模式的翻译模型,并对其效率和准确性进行了评估和比较。
Oct, 2022
该研究介绍了 Speech-LLaMA,一种将声学信息有效地整合到基于文本的大型语言模型中的新方法,并进一步探索了仅解码器架构在语音处理任务中的应用。
Jul, 2023
本文提出了一种新的端到端自动语音识别(ASR)架构,可以利用符号输入和传统的声学输入进行训练,该架构使用两个单独的编码器:一个用于声学输入,另一个用于符号输入,并共享注意力和解码器参数;通过研究不同的方法将大型文本语料库转换成符号形式进行训练,我们的最佳 MMDA 设置不仅可以在字符错误率(CER)上获得小的改善,而且在基线上,无论是否有外部语言模型,均可以获得 7-10%相对词错误率(WER)的改进。
Mar, 2018
通过神经架构搜索,设计了硬件感知的 Transformer 来保证在资源受限的硬件平台上具有低延迟推断的能力,从而在机器翻译任务中显著提高速度和模型效率。
May, 2020
基于因子化转导模型的新型内部语言模型 (ILM) 训练和解码策略,在 LibriSpeech 数据集上相对于标准解码方法获得了 17% 的相对改进,并与外部语言模型融合强化的强 RNN-T 基线相比,在一般集上获得了 5.5% 的相对改进和对于罕见单词的 8.9% WER 降低。该模型在无需依赖外部语言模型的情况下,达到了优秀的性能,非常适用于生产用例,并提出了一种新颖且内存高效的 ILM 融合意识的最小词误差率 (MWER) 训练方法来进一步提升性能。
Apr, 2024