休斯顿，我们遇到了分歧：ASR 模型的子群绩效分析

Mar, 2024

休斯顿，我们遇到了分歧：ASR 模型的子群绩效分析

Houston we have a Divergence: A Subgroup Performance Analysis of ASR Models

Alkis Koudounas, Flavio Giobergia

TL;DR该研究探讨了 NASA 阿波罗任务的多话者团队通信潜力，并提取了音频记录的关键元数据，通过分析不同元数据组合的子组的性能差异，研究了自动语音识别方法在阿波罗录音中的可行性和问题，在不同模型和多语言处理上优化了 ASR 系统的性能，为地球与太空通信的 ASR 系统优化提供了理论基础。

Abstract

The Fearless Steps APOLLO Community Resource provides unparalleled opportunities to explore the potential of multi-speaker team communications from NASA Apollo missions. This study focuses on discovering the characteristics that make apollo recordings more or less intelligible to

automatic speech recognition apollo recordings metadata whisper model subgroup performance

发现论文，激发创造

NPTEL MOOC 数千个视频间的单词错误率差异的深入研究

本研究描述了一个庞大的语音数据集的构建过程，并利用该数据集评估了印度不同演讲者的性别、籍贯、年龄和语速对 YouTube 自动字幕和 OpenAI Whisper 模型性能的影响。结果表明需要更具包容性和鲁棒性的 ASR 系统以及更具代表性的数据集进行差异性评估。

Jul, 2023

探究自动语音识别系统对 L2 英语语音变异的敏感性

使用一种探测方法，发现了 ASR 系统处理在 L2 英语方言中的发音差异时，出现了声素级别的错误并产生了更高的 WER。这项工作系统地说明了 ASR 的行为，通过确定特定问题的物质来源来提高 ASR 的准确性。

May, 2023

Transsion TSUP 的语音识别系统用于 ASRU 2023 MADASR 挑战

该研究提出了一种语音识别系统，专门用于适应资源有限的印度语言，采用 ASR 模型和 KenLM 语言模型，取得了较低的错误率。

Jul, 2023

基于语音库差异的无监督数据选择在 ASR 中的应用

本研究提出了一种基于语音语料库分歧的无监督目标感知数据选择方法，使用自监督 Hubert 模型将语音语料库离散化为标签序列，计算 N-gram 概率分布，并计算 N-gram 之间的 KL 散度作为 SCD，从而选择与目标语料库具有最小 SCD 的子集进行注释和训练。与以往的数据选择方法相比，SCD 数据选择方法可以关注更多的声学细节并保证所选集的多样性。在 Common Voice 的不同口音上进行评估，实验结果表明，所提出的 SCD 数据选择方法可以实现 14.8% 的相对改进，与有监督的选择结果相当或甚至更好。

Feb, 2023

将 ASR 基础模型用于口语评估的适应

本文详细分析了 Whisper 输出，并提出了精细调整和软提示调整两种解决方案，实验证明我们可以有效地改变 Whisper 的解码行为，生成与口语回答中准确的单词。

Jul, 2023

麦霍马乌纳伊卡艾：语言模型在夏威夷语自动语音识别中的改进

改善低资源语言夏威夷语的自动语音识别（ASR）的挑战，通过将大量独立文本数据整合到 Whisper 基础模型中，我们采用约 1.5M 字的夏威夷文本数据训练了外部语言模型（LM）。然后，我们使用该语言模型对 Whisper 进行评分，并计算标记的夏威夷数据测试集的词错误率（WER）。实验结果显示，在用夏威夷语言模型重新评分 ASR 输出时，WER 有小幅但显著的改善。结果支持在开发代表性语言的 ASR 系统时利用所有可用数据。

Apr, 2024

启用低资源语言的 ASR：一个全面的数据集创建方法

本研究介绍了一种用于从有声读物生成 ASR 训练数据集的新型流程，以应对资源稀缺语言中自动语音识别系统性能较差的问题。该方法通过有效地对齐音频和相应的文本，并将其分割成适合 ASR 训练的长度，简化了资源稀缺语言中 ASR 系统的数据准备工作，并通过对亚美尼亚语的案例研究证明了其应用价值。这种方法可以适用于许多资源稀缺语言，不仅解决了数据匮乏问题，还提高了低资源语言的 ASR 模型性能。

Jun, 2024

低资源印度语言中语音识别模型的调整

通过利用语音和文本资源采用适应和微调技术，提高了印度语言 Bengali 和 Bhojpuri 的自动语音识别（ASR）性能，并通过多模态数据了解每种模态在构建可靠 ASR 方面的重要程度以及解决全球各种语言中的低资源问题的潜在解决方案。

Jul, 2023

无监督自动语音识别：综述

这篇论文研究了使用无监督学习的方法，包括语音分割，语音信号到文本的映射和半监督模型来实现自动语音识别，以识别从语音数据中可以学到的极限并理解语音识别的最小要求，目的是为了在开发低资源语言的语音识别系统时优化资源和努力。

Jun, 2021

工业级多语种自动语音识别的解剖

描述了 AssemblyAI 的工业规模自动语音识别（ASR）系统的结构和性能优势，包括模型架构、词错误率、代码切换能力等关键方面。

Apr, 2024