使用门控语言专家和课程训练建立高精度的多语言 ASR
我们介绍了一种支持英语作为主要语境的混合自动语音识别中的英语为辅助语境的双语解决方案,通过使用字素单元而不是音素单元的发音词典、完全双语对齐模型以及双语流转换模型、具有语种识别损失的并行编码器结构以及辅助损失的并行编码器,我们证明了辅助损失相比于语种识别损失在使并行编码器专门化到各自的单语语境方面更为优越,并且这有助于更强的双语学习。我们针对双语西班牙语(ES)和双语意大利语(IT)应用进行了大规模训练和测试任务的评估。我们的双语模型展示了良好的混合使用英语能力。特别是,在混合使用意大利语任务中,双语意大利语模型将词错误率(WER)从 46.5% 降低到 13.8%,同时在意大利语测试中也实现了与单语意大利语模型(9.5%)接近的匹配度(9.6%)。
Aug, 2023
本文提出了一种改进的循环神经网络转录模型,通过集成一个帧级语言识别器预测器实现语言识别,以实现流式语音识别,通过流式实现统计汇聚,降低测试时成本,在语音搜索数据集上进行实验,平均命中率达到 96.2%。
Sep, 2022
新颖的跨语言转移学习方法 - 从单语言模型到新语言,通过学习一个新的词嵌入矩阵来实现,该方法与现有不需要共享词汇表或联合训练的最先进的无监督多语言模型的跨语言分类基准测试表现相似。
Oct, 2019
利用单一多语言语言模型(LM)来进行多语言浅层融合任务,并将其应用于最先进的端到端模型,相对于类似推理期间的密集 LM ,GLaM 可将英语长尾测试集的 WER 降低 4.4 %,平均相对 WER 降低 3.85%,并且最高降低 10%。
Feb, 2023
介绍了一种通过引入语言特定的变压器层来增加模型容量、提高翻译质量的方法,并通过神经架构搜索实现最佳层次排列,从而在不增加计算量和参数数量的情况下,提升 1.3 chrF (1.5 spBLEU) 或 1.9 chrF (2.2 spBLEU) 的翻译质量。
May, 2023
探索利用 Whisper 模型的解码器网络通过其生成机制提取语言特征来提高 LID 任务中的分类准确性。通过基于语言嵌入方法和直接优化 LID 输出的两种策略,在 MLS、VoxLingua107 和 CommonVoice 等大规模多语言数据集上进行实验以验证我们的方法的有效性。实验结果表明该方法在 LID 任务的领域内和领域外数据集上均具有良好效果。
Dec, 2023
本文提出一种单词级别的任务无关方法来评估多语言 Transformers 模型构建的上下文表示的对齐情况,并表明一些多语言 Transformer 模型的内部层表现优于其他明确对齐表示,甚至更符合更严格的多语言对齐定义。
Jul, 2022
通过将多个低资源语言聚集在一起来实现地区组多语言 Transformer LM 的最佳性能,使得 Monolingual LM 候选模型表现更佳且减少维护成本和运营费用。
Sep, 2022
本文介绍了一种轻量级双变压器体系结构,用于生成记忆高效的跨语言句子表示。同时,还提出了一种新的跨语言语言模型,并引入了两个计算良好的句子级对比学习任务,以提高跨语言句子表示空间的对齐度,从而补偿生成任务的学习瓶颈。实验结果表明,在跨语言句子检索和多语言文档分类方面,与竞争模型相比,我们提出的新的训练任务有效性更高。
May, 2021
本文利用单个 transformer 模型及语言符号,针对低资源语言进行多语言语音识别,相较于 SHL-MLSTM 具有较高的识别精度。
Jun, 2018