Vistaar: 用于印度语音识别的多元基准和训练集

May, 2023

Vistaar: 用于印度语音识别的多元基准和训练集

Vistaar: Diverse Benchmarks and Training Sets for Indian Language ASR

Kaushal Santosh Bhogale, Sai Sundaresan, Abhigyan Raman, Tahir Javed, Mitesh M. Khapra...

TL;DR本文提出了 Vistaar，59 个受试语言和领域组合的基准，用于评估和改进三个公开的 ASR 系统和两个商业系统，同时使用 IndicWhisper 通过在 12 种印度语言上进行微调，在 Vistaar 基准中明显改善了考虑到的 ASR 系统。

Abstract

Improving asr systems is necessary to make new LLM-based use-cases accessible to people across the globe. In this paper, we focus on indian languages, and make the case that diverse →

asr systems indian languages benchmarks indicwhisper wer

发现论文，激发创造

Svarah: 评估印度口音上的英语 ASR 系统

本研究创建了一个 Svarah 基准测试数据集，其中包括来自印度 65 个地理位置的 117 位说话者的 9.6 小时的语音数据，用来评估 ASR 模型在印度口音上的表现，并发现改进的空间。

May, 2023

Vakyansh: 适用于资源稀缺的印度语言的 ASR 工具包

Vakyansh 是一个 Indic 语言语音识别端到端工具包，通过自动数据流水线实现数据创建，训练和部署，提供了适应于 18 种 Indic 语言的最先进的语音识别模型，并开放了所有这些资源来支持语音开发者社区。

Mar, 2022

适用于印度语的代码转换和混合语音识别

本研究通过比较使用多语种和单语种模型进行语音识别的表现，提出了一种基于 wav2vec 2.0 的端到端多语种语音识别和混合语言识别技术，取得了印度诸多语言语音识别的较好效果。

Mar, 2022

利用语言模型提高印度语言的语音识别

本文探究了应用语言模型（LM）到印欧语系语言的自动语音识别（ASR）系统输出结果的影响。我们使用来自多种来源的文本对 18 种印欧语系语言的 wav2vec 2.0 模型进行微调，并进行结果调整。我们的研究结果显示，经过 LM 解码后，字符错误率（CER）平均降低了 28％以上，单词错误率（WER）平均降低了约 36％。文章还表明，与多样化的 LM 相比，大型 LM 可能不会带来更大的改进。此外，我们还展示了可以在不重新训练 ASR 模型的情况下在生物医学领域的专业数据上获得高质量翻译的结果。

Mar, 2022

低资源印度语言中语音识别模型的调整

通过利用语音和文本资源采用适应和微调技术，提高了印度语言 Bengali 和 Bhojpuri 的自动语音识别（ASR）性能，并通过多模态数据了解每种模态在构建可靠 ASR 方面的重要程度以及解决全球各种语言中的低资源问题的潜在解决方案。

Jul, 2023

NPTEL MOOC 数千个视频间的单词错误率差异的深入研究

本研究描述了一个庞大的语音数据集的构建过程，并利用该数据集评估了印度不同演讲者的性别、籍贯、年龄和语速对 YouTube 自动字幕和 OpenAI Whisper 模型性能的影响。结果表明需要更具包容性和鲁棒性的 ASR 系统以及更具代表性的数据集进行差异性评估。

Jul, 2023

工业级多语种自动语音识别的解剖

描述了 AssemblyAI 的工业规模自动语音识别（ASR）系统的结构和性能优势，包括模型架构、词错误率、代码切换能力等关键方面。

Apr, 2024

基于深度语音的印度英语口音端到端自动语音识别（ASR）

本研究使用转移学习和数据增强方法，对最近的 Deep Speech 模型（deepspeech-0.9.3）进行 fine-tuning，以开发一个适用于印度英语口音的端到端语音识别系统，并与其他可用的印度英语口音识别服务进行了比较。

Apr, 2022

IndicVoices：为印度语言构建一个包容性的多语言语音数据集

我们提供了 INDICVOICES 数据集，该数据集包含来自 16237 名发言人的 7348 小时自然和自发的语音，涵盖了 145 个印度地区和 22 种语言。通过本文，我们分享了捕捉印度文化、语言和人口多样性的旅程，为数据收集提供了标准化协议、集中工具、引人入胜的问题、提示和对话场景库，以及质量控制机制和全面的转录指南。我们希望这一开源蓝图能够成为其他多语言地区数据收集工作的全面入门指南。利用 INDICVOICES，我们构建了 IndicASR，这是第一个支持印度宪法第八版中列出的 22 种语言的 ASR 模型。本研究的所有数据、工具、指南、模型和其他资料都将公开提供。

Mar, 2024

LoRA-Whisper: 参数高效且可扩展的多语言语音识别

本文提出了 LoRA-Whisper 模型，通过将 LoRA 矩阵融入 Whisper，有效减轻多语种自动语音识别中的语言干扰，并通过利用 LoRA 和语言之间的相似性，在新语种上取得更好的性能，同时保持原有语种的稳定性。在涉及八种语言的真实任务实验中，我们的提出的 LoRA-Whisper 相对于基准系统分别在多语种自动语音识别和语言扩展方面获得了 18.5% 和 23.0% 的相对增益。

Jun, 2024