Transsion TSUP 的语音识别系统用于 ASRU 2023 MADASR 挑战

Jul, 2023

Transsion TSUP 的语音识别系统用于 ASRU 2023 MADASR 挑战

Transsion TSUP's speech recognition system for ASRU 2023 MADASR Challenge

Xiaoxiao Li, Gaosheng Zhang, An Zhu, Weiyong Li, Shuming Fang...

TL;DR该研究提出了一种语音识别系统，专门用于适应资源有限的印度语言，采用 ASR 模型和 KenLM 语言模型，取得了较低的错误率。

Abstract

This paper presents a speech recognition system developed by the Transsion Speech Understanding Processing Team (TSUP) for the ASRU 2023 MADASR Challenge. The system focuses on adapting asr models for

speech recognition system low-resource indian languages asr models kenlm language model word error rates

发现论文，激发创造

IARPA OpenASR21 挑战中的 THUEE 系统描述

该论文介绍了 THUEE 团队为 IARPA OpenASR21 挑战赛开发的语音识别系统，包括使用基于混合体系结构的 ASR 系统、使用 Grapheme-to-Phoneme 技术扩展发音词典来缓解词汇外问题、使用 self-supervised 学习框架 wav2vec2.0 等技术来提高识别准确度等。

Jun, 2022

低资源自动语音识别的方言适应和数据增强：MADASR 2023 挑战中的 TalTech 系统

通过使用 aligned data augmentation 技术增强语言多样性和 deep prefix tuning 方法进行方言适应，Tallinn University of Technology（TalTech）在 ASRU MADASR 2023 Challenge 的两个轨道中都取得了显著的改进，并实现了参与团队中最低的词错误率。

Oct, 2023

基于 Conformer 的单声道音频目标说话人自动语音识别

我们提出了 CONF-TSASR，这是一种非自回归的端到端时间 - 频率域架构，用于单通道目标人说话者自动语音识别（TS-ASR）。该模型包括基于 TitaNet 的说话者嵌入模块，基于 Conformer 的掩蔽和 ASR 模块，通过联合优化这些模块来转录目标说话者的语音，忽略其他讲话者的语音。通过使用连接主义时间分类（CTC）损失进行训练，并引入一种比例不变的频谱重建损失来鼓励模型更好地将目标说话者的频谱与混合音频分离。在 WSJ0-2mix-extr（4.2％）数据集上，我们获得了最先进的目标说话者词错误率（TS-WER）。此外，我们首次报告了 WSJ0-3mix-extr（12.4％），LibriSpeech2Mix（4.2％）和 LibriSpeech3Mix（7.6％）数据集上的 TS-WER，为 TS-ASR 建立了新的基准。所提出的模型将通过 NVIDIA NeMo 工具包开源。

Aug, 2023

将 ASR 基础模型用于口语评估的适应

本文详细分析了 Whisper 输出，并提出了精细调整和软提示调整两种解决方案，实验证明我们可以有效地改变 Whisper 的解码行为，生成与口语回答中准确的单词。

Jul, 2023

适用于印度语的代码转换和混合语音识别

本研究通过比较使用多语种和单语种模型进行语音识别的表现，提出了一种基于 wav2vec 2.0 的端到端多语种语音识别和混合语言识别技术，取得了印度诸多语言语音识别的较好效果。

Mar, 2022

基于 Wav2Vec2 和迁移学习的孟加拉语自动语音识别系统

本文旨在利用基于迁移学习框架的端到端语音识别技术，提高孟加拉语的语音识别性能，并在使用仅 1000 个训练样本进行训练的情况下，在测试数据集上实现了 3.819 的 Levenshtein Mean Distance 得分。

Sep, 2022

工业级多语种自动语音识别的解剖

描述了 AssemblyAI 的工业规模自动语音识别（ASR）系统的结构和性能优势，包括模型架构、词错误率、代码切换能力等关键方面。

Apr, 2024

2021 年 IWSLT USYD-JD 语音翻译系统

描述了悉尼大学＆JD 在 IWSLT 2021 低资源语音翻译任务中的联合提交。我们参加了斯瓦希里语 - 英语方向，并在所有参与者中获得了最佳的分数，使用基于管道框架的 ASR 和 NMT。我们采用了多种技术方法，包括基于知识蒸馏的后向转换、多特征重排和传导调整。在模型结构方面，我们分别尝试了自回归模型和非自回归模型，还提出了两种新颖的预训练方法，即去噪训练和双向训练，取得了 SOTA 的性能。

Jul, 2021

几乎无监督的文本转语音和自动语音识别

本文提出了一种基于 Transformer 模型的几乎无监督学习方法，结合 TTS 和 ASR 的双重特性，通过少量的配对数据和额外的未配对数据，实现了对语音和文本领域的语言建模，并在 LJSpeech 数据集上达到了 99.84% 的可懂单词率和 2.68 MOS 的 TTS 表现，以及 11.7% 的 ASR 错误率。

May, 2019

关键词引导的自动语音识别适应

通过上下文偏差对 Whisper 模型进行改进，提出了一种优化行话词识别的新方法。采用关键词检测模型，利用 Whisper 编码器表示动态生成的提示来引导解码器。引入了 KG-Whisper 和 KG-Whisper-PT 两种方法来有效引导解码器，并在特定关键词的识别准确率和整体词错误率上取得了显著的改进。在未见过的语言泛化中，与 Whisper 相比，平均词错误率提高了 5.1%。

Jun, 2024