儿童语音识别的离散标记增强

Jun, 2024

Children's Speech Recognition through Discrete Token Enhancement

Vrunda N. Sukhadia, Shammur Absar Chowdhury

TL;DR在这项研究中，我们调查了将离散语音标记整合到儿童语音识别系统中的方法，以解决数据稀缺和隐私问题，并探索了单视图和多视图策略，测试了模型的泛化能力。结果表明，儿童的离散标记语音识别系统几乎可以达到与传统方法相当的性能，并且参数减少了约 83%。

Abstract

children's speech recognition is considered a low-resource task mainly due to the lack of publicly available data. There are several reasons for such data scarcity, including expensive data collection and annotation processes, and data privacy, among others. Transforming speech signals

children's speech recognition data scarcity discrete speech tokens asr performance generalization capabilities

发现论文，激发创造

TokenSplit: 使用离散语音表征进行直接、精确和转录条件下的语音分离与识别

我们提出了 TokenSplit，一种在离散标记序列上操作的语音分离模型。该模型通过输入掩码实现多任务训练，包括将每个语音源进行分离和转录，并从文本生成语音。我们还介绍了模型的 “修正” 版本，该版本通过传统分离模型分离的音频标记预测增强音频标记。通过客观度量和主观 MUSHRA 听测，我们证明了我们的模型在分离方面具有优秀的性能，无论是否有转录条件。我们还测量了自动语音识别（ASR）性能，并提供了语音合成的音频样本来展示我们模型的附加效用。

Aug, 2023

儿童与成人自动语音识别性能差距之桥梁

近期在自动语音识别系统（ASR）方面的最新进展，如 Whisper，已经显示出这些系统在充足的数据支持下能够接近人类水平的性能。然而，由于适合儿童的特定数据库的有限性以及儿童语音的独特特征，这一进展并不容易延伸到儿童 ASR 领域。最近的一项研究调查了利用 My Science Tutor (MyST) 儿童语音语料库提高 Whisper 在儿童语音识别方面的性能。本文在此基础上通过更高效的数据预处理提升了 MyST 数据集的实用性，同时还强调了改善儿童 ASR 性能的重要挑战。结果展示了将 Whisper 有效集成到改善儿童语音识别领域的可行性和高效性。

Sep, 2023

DASB -- 离散音频和语音基准

通过发布离散音频和语音基准 (DASB)，我们研究了离散音频标记符在各种任务中的性能表现，并发现语义标记比压缩标记在大多数任务中表现更好，但语义标记和标准连续表示之间的性能差距仍然存在。

Jun, 2024

针对低资源且野外环境下的丹麦儿童 - 临床家谈话的语音检测：一个案例研究

本文研究在野外临床数据中使用预训练语音模型进行分割和分辨，提出了少实例阈值适应方法，并发现默认分类阈值下的模型在患者群体中表现较差，错误率与患者病情的严重程度直接相关，而研究表明三分钟的临床医生 - 儿童对话足以获得最佳分类阈值。

Apr, 2022

增强式儿童语音识别技术的改进

儿童语音识别的表现有待提高，本研究通过对现有数据集中的儿童语音和额外的儿童说话人进行单语和跨语言转换来研究儿童间的语音转换，结果表明跨语言儿童间语音转换能显著提高儿童语音识别性能。对儿童间跨语言语音转换产生的数据量对微调自注意力模型和 Whisper 模型的影响实验结果显示，对微调自注意力模型使用两倍数据和对从头训练的模型使用六倍数据取得了最佳效果，相较于基准线而言，两者分别使词错误率 (WER) 绝对减少了约 3% 和提高了 3.6%。此外，使用少量 “高质量” 语音转换生成的数据也能取得类似最佳微调模型的效果。

Jun, 2024

儿童在人机交互中的语音识别：问题解决了吗？

自动语音识别在成人英语语音方面显示出超人的表现，但在儿童语音方面表现不佳。最新的数据驱动语音识别技术包括 Transformer 架构和前所未有的训练数据量，可能会为儿童语音识别和面向儿童的社交机器人应用带来突破。我们重新审视了 2017 年的一项关于儿童语音识别的研究，并表明性能确实有所提高，新晋的 OpenAI Whisper 相比领先的商业云服务表现明显更好。尽管转录还不完美，但最佳模型可以正确识别 60.3% 的句子，除了一些小的语法差异，使用本地 GPU 运行的亚秒级转录时间显示出可用于自主儿童 - 机器人语音交互的潜力。

Apr, 2024

通过微调自监督成人语音表示提高儿童的语音识别能力

本文通过利用自监督学习采用三个儿童语音语料库构建儿童语音识别模型，分析 fine-tuning 在本地和非本地儿童语音上的性能表现和跨域儿童语料对模型性能的影响，结果显示利用跨域儿童语料进行 fine-tuning 可以使识别性能相对提高至 46.08% 和 45.53% 并且实现绝对改进 14.70% 和 31.10%，同时通过仅需要 5 个小时的儿童语音数据，也可以超越在 960 个小时成年人语音数据上进行 fine-tuning 的现有成人模型的儿童语音系统。

Nov, 2022

使用离散化语音单元探索语音识别、翻译和理解：一项比较研究

通过对离散单元在端到端语音处理模型中应用的系统和全面的探索，实验证明离散单元在几乎所有设置中都可以取得相当好的结果。

Sep, 2023

利用数据增强提高低资源语音识别的准确性

研究发现，利用自训练及文本转语音增广训练数据可以有效提高低资源语种的 ASR 性能，为解决数据稀缺问题提供了一种高效解决方案。

May, 2023

面向儿童语音识别的基于滤波器的判别自编码器

本文提出了一种基于滤波的判别性自编码器技术，旨在解决儿童语音识别中多种说话人类型和音高的影响问题，并在测试集上实现了较基准系统更高的识别率，并在英国口音 PF-STAR 任务中实现了比基线系统更好的结果。

Apr, 2022