2022 年 NIST 语言识别评估
该论文介绍了 I4U 团队参加 2020 年 NIST 演讲者识别评估挑战的贡献,该贡献基于来自 8 个研究团队的子系统和子融合系统的融合,并致力于使用共同的开发和验证集,提交时间表和里程碑,最大限度地减少现场试验列表和评分文件格式上的不一致性。
Nov, 2022
本文介绍了 XLS-R,这是一个基于 Wav2vec 2.0 的用于跨语言语音表示学习的大规模模型,其在 128 种语言的近半百万小时的公开语音音频数据上进行训练,并取得了广泛的评估表现。我们的研究致力于提升语音处理任务在更多的世界语言上的表现。
Nov, 2021
本文研究了口语语言识别的不同预训练方法,并基于我们在东方语言识别挑战赛 2021 中的提交,参与了有约束和无约束的语言识别的两个任务。我们主要使用 Conformer-based 编码器 - 解码器模型和 XLSR-53 wav2vec2.0 模型作为端到端的系统,这些模型都包含有前置的预训练网络。
May, 2022
本文介绍了一种名为 LRSpeech 的 TTS 和 ASR 系统,能够在极低资源的情况下支持资料匮乏的语言,并通过三个关键技术来优化模型,包括基于富资源语言的预训练和微调、TTS 和 ASR 之间的双重转换以及知识蒸馏等。实验证明 LRSpeech 在语音合成方面达到了工业部署的要求,在语音识别方面达到了很好的识别精度,并且需要非常少的训练数据。
Aug, 2020
本文介绍了基于 RRC-MLT-2017 的文本检测和识别竞赛,该竞赛包含一个新的端到端任务、一个现实图像数据集中的额外语言,一个大规模的多语言合成数据集以辅助训练,并提出了一个基线端到端识别方法。该竞赛总共收到了来自研究和工业界的 60 份提交,本文展示了该竞赛的数据集、任务和发现结果。
Jul, 2019
本文提出了用于语言混合(Code-Switching)的中心化基准测试(LinCE),其中包括四种混音语言对和四个 NLP 任务,包括语言识别,命名实体识别,词性标注和情感分析。LinCE 旨在提高多语言 NLP 建模的可重复性、可比性和准确性。
May, 2020
该论文介绍了 MSR-86K,这是一个逐渐增长的大规模多语言语音识别研究语料库,由 YouTube 上公开可访问的视频转录数据组成,包括 15 种语言和总共 86300 小时的 ASR 数据。同时,该论文还介绍了如何使用 MSR-86K 语料库和其他开源语料库来训练一个与 Whisper 相媲美的强大的多语言语音识别模型。我们将在 HuggingFace 上公开发布 MSR-86K,相信这样一个大规模的语料库将为多语言语音识别的研究开辟新的道路。
Jun, 2024
本文研究运用机器学习技术进行多语言自然语言处理的现状,通过对 XTREME-R 的介绍和使用提出跨语言转移学习的方法,并提供一个交互式公共排行榜和 XTREME-R 的代码以拓展其应用领域。
Apr, 2021
本文介绍了一个收集英语盈利电话会议的语料库,旨在为评估现代自动语音识别系统的实际表现提供一个免费的现实世界参考标准,通过 4 个商业模型的比较,研究了地区口音对模型表现的影响,以及研究了 ASR 系统普遍出现的误差和关键语音特征对模型表现的影响。
Mar, 2022
本文提出了 LoRA-Whisper 模型,通过将 LoRA 矩阵融入 Whisper,有效减轻多语种自动语音识别中的语言干扰,并通过利用 LoRA 和语言之间的相似性,在新语种上取得更好的性能,同时保持原有语种的稳定性。在涉及八种语言的真实任务实验中,我们的提出的 LoRA-Whisper 相对于基准系统分别在多语种自动语音识别和语言扩展方面获得了 18.5% 和 23.0% 的相对增益。
Jun, 2024