我们立足何处：乌尔都语自动语音识别模型基准评估

Sep, 2024

我们立足何处：乌尔都语自动语音识别模型基准评估

WER We Stand: Benchmarking Urdu ASR Models

Samee Arif, Aamina Jamal Khan, Mustafa Abbas, Agha Ali Raza, Awais Athar

TL;DR本研究解决了乌尔都语自动语音识别（ASR）模型性能评估的不足，提出了一种综合评估方法。研究发现，seamless-large模型在朗读语音数据集上的表现优于其他模型，而whisper-large则在会话语音数据集上表现最佳，强调了在低资源语言中开发强大的ASR系统的重要性。

Abstract

This paper presents a comprehensive evaluation of Urdu Automatic Speech Recognition (ASR) models. We analyze the performance of three ASR model families: Whisper, MMS, and Seamless-M4T using →

发现论文，激发创造

我们是谁，以及我们认为自己是谁 - 评估自我知觉的准确性

本文质疑了现代自动语音识别系统在基准数据集上达到极低词错误率的报告，同时比较了三种最先进的商用自动语音识别系统在现实生活中的人类对话和公共基准测试中的表现，并得出结论：WERs显著高于最佳报告结果。我们制定了一组准则，可帮助创建高质量注释的现实生活中多领域数据集，以训练和测试强大的ASR系统。

Oct, 2020

基于端到端、模块化系统和人类的阿拉伯语语音识别

这篇文章探讨了自动语音识别方面的技术进展，并比较了针对阿拉伯语和其方言的端到端Transformer ASR，模块化HMM-DNN ASR和人类讲话识别技术之间的性能差距，结果表明，人类在阿拉伯语方面表现仍然明显优于机器。

Jan, 2021

QASR：QCRI Aljazeera语音资源 -- 大规模标注的阿拉伯语音语料库

该论文介绍了目前最大的阿拉伯语语音数据集 QASR，包含 2000 小时的文本和语音数据，可以用于语音识别、语音和/或语言学中阿拉伯语方言识别、语音人物识别和潜在的其他 NLP 模块的训练和评估。对于下游 NLP 任务，如命名实体识别和阿拉伯语标点修复，该数据集还提供了基线结果。

Jun, 2021

无监督的跨语言语音识别误率标准化

提出了一种基于拼写和分词的自动化WER规范系统，通过在四种语言上的实验，平均WER降低了13.28％。同时，基于该系统的标注数据的人工实验结果表明，该文中所提出的WER规范方法与ASR输出的感知质量高度一致。

Mar, 2023

利用基于数据的方法和混合HMM与CNN-TDNN实现噪声电话环境下的代码切换乌尔都语自动语音识别

本文介绍了在嘈杂的呼叫中心环境中，使用链式混合HMM和CNN-TDNN来构建资源高效的自动语音识别/语音转文本系统，以解决自动化语音识别在区域呼叫中心中的“代码切换”问题，以提高关键词搜索和情感分析的准确性，实现了5.2%的识别错误率。

Jul, 2023

在阿拉伯电话领域中评估自动语音识别系统的新基准

该研究旨在介绍一个全面的阿拉伯语语音识别基准，专门针对阿拉伯语电话对话的挑战。通过使用多样化的方言表达并考虑电话录音的质量变化，该基准旨在为开发和评估在电话环境中处理阿拉伯语言复杂性的自动语音识别系统提供严格的测试平台，并尝试使用最先进的ASR技术建立基准性能评估。

Mar, 2024

启用低资源语言的ASR：一个全面的数据集创建方法

本研究介绍了一种用于从有声读物生成ASR训练数据集的新型流程，以应对资源稀缺语言中自动语音识别系统性能较差的问题。该方法通过有效地对齐音频和相应的文本，并将其分割成适合ASR训练的长度，简化了资源稀缺语言中ASR系统的数据准备工作，并通过对亚美尼亚语的案例研究证明了其应用价值。这种方法可以适用于许多资源稀缺语言，不仅解决了数据匮乏问题，还提高了低资源语言的ASR模型性能。

Jun, 2024

超越莱文斯坦：利用多种算法实现稳健的字错误率计算和细化错误分类

本文解决了自动语音识别中传统字错误率（WER）计算的局限性，特别是在标点和大小写等非语义差异方面的信息丢失。通过采用扩展的莱文斯坦距离算法，我们提出了一种非破坏性的基于令牌的方法，能够计算更加稳健的WER和其他正字法指标，并利用字符串相似性和语音算法对转录错误进行更细致的分类。研究表明，我们的方法在多个数据集上的效果与常用的WER计算方式相当，并提供了基于此的用例分析及互动可视化的网络应用。

Aug, 2024

规范化中遗失了什么？探索多语言自动语音识别模型评估中的陷阱

本文针对多语言自动语音识别（ASR）模型评估中的问题，尤其是印地语脚本，进行了深入研究。研究发现目前的文本规范化方法在评估印地语时存在根本性缺陷，导致性能指标被人为抬高，提出了利用本土语言专业知识发展的新规范化方案，以确保多语言ASR模型的评估更加准确和可靠。

Sep, 2024

自动语音识别基准测试：对更具代表性的对话数据集的需求

本研究解决了现有自动语音识别（ASR）基准未能反映现实对话环境复杂性的问题，提出了一个来自TalkBank的多语言对话数据集。研究发现，主流ASR模型在此对话环境下性能显著下降，并揭示了语音不流畅性与词错误率之间的相关性，突显了建立更真实对话基准的必要性。

Sep, 2024