Transsion TSUP 的语音识别系统用于 ASRU 2023 MADASR 挑战
该论文介绍了 THUEE 团队为 IARPA OpenASR21 挑战赛开发的语音识别系统,包括使用基于混合体系结构的 ASR 系统、使用 Grapheme-to-Phoneme 技术扩展发音词典来缓解词汇外问题、使用 self-supervised 学习框架 wav2vec2.0 等技术来提高识别准确度等。
Jun, 2022
通过使用 aligned data augmentation 技术增强语言多样性和 deep prefix tuning 方法进行方言适应,Tallinn University of Technology(TalTech)在 ASRU MADASR 2023 Challenge 的两个轨道中都取得了显著的改进,并实现了参与团队中最低的词错误率。
Oct, 2023
我们提出了 CONF-TSASR,这是一种非自回归的端到端时间 - 频率域架构,用于单通道目标人说话者自动语音识别(TS-ASR)。该模型包括基于 TitaNet 的说话者嵌入模块,基于 Conformer 的掩蔽和 ASR 模块,通过联合优化这些模块来转录目标说话者的语音,忽略其他讲话者的语音。通过使用连接主义时间分类(CTC)损失进行训练,并引入一种比例不变的频谱重建损失来鼓励模型更好地将目标说话者的频谱与混合音频分离。在 WSJ0-2mix-extr(4.2%)数据集上,我们获得了最先进的目标说话者词错误率(TS-WER)。此外,我们首次报告了 WSJ0-3mix-extr(12.4%),LibriSpeech2Mix(4.2%)和 LibriSpeech3Mix(7.6%)数据集上的 TS-WER,为 TS-ASR 建立了新的基准。所提出的模型将通过 NVIDIA NeMo 工具包开源。
Aug, 2023
本文详细分析了 Whisper 输出,并提出了精细调整和软提示调整两种解决方案,实验证明我们可以有效地改变 Whisper 的解码行为,生成与口语回答中准确的单词。
Jul, 2023
本研究通过比较使用多语种和单语种模型进行语音识别的表现,提出了一种基于 wav2vec 2.0 的端到端多语种语音识别和混合语言识别技术,取得了印度诸多语言语音识别的较好效果。
Mar, 2022
本文旨在利用基于迁移学习框架的端到端语音识别技术,提高孟加拉语的语音识别性能,并在使用仅 1000 个训练样本进行训练的情况下,在测试数据集上实现了 3.819 的 Levenshtein Mean Distance 得分。
Sep, 2022
描述了悉尼大学&JD 在 IWSLT 2021 低资源语音翻译任务中的联合提交。我们参加了斯瓦希里语 - 英语方向,并在所有参与者中获得了最佳的分数,使用基于管道框架的 ASR 和 NMT。我们采用了多种技术方法,包括基于知识蒸馏的后向转换、多特征重排和传导调整。在模型结构方面,我们分别尝试了自回归模型和非自回归模型,还提出了两种新颖的预训练方法,即去噪训练和双向训练,取得了 SOTA 的性能。
Jul, 2021
本文提出了一种基于 Transformer 模型的几乎无监督学习方法,结合 TTS 和 ASR 的双重特性,通过少量的配对数据和额外的未配对数据,实现了对语音和文本领域的语言建模,并在 LJSpeech 数据集上达到了 99.84% 的可懂单词率和 2.68 MOS 的 TTS 表现,以及 11.7% 的 ASR 错误率。
May, 2019
通过上下文偏差对 Whisper 模型进行改进,提出了一种优化行话词识别的新方法。采用关键词检测模型,利用 Whisper 编码器表示动态生成的提示来引导解码器。引入了 KG-Whisper 和 KG-Whisper-PT 两种方法来有效引导解码器,并在特定关键词的识别准确率和整体词错误率上取得了显著的改进。在未见过的语言泛化中,与 Whisper 相比,平均词错误率提高了 5.1%。
Jun, 2024