结合 X-Vectors 和贝叶斯批量主动学习：用于语音识别的两阶段主动学习流程

May, 2024

结合 X-Vectors 和贝叶斯批量主动学习：用于语音识别的两阶段主动学习流程

Combining X-Vectors and Bayesian Batch Active Learning: Two-Stage Active Learning Pipeline for Speech Recognition

Ognjen Kundacina, Vladimir Vincan, Dragisa Miskovic

TL;DR该研究通过强调数据为中心的人工智能方法，引入一种新的两阶段主动学习（AL）流程，用于自动语音识别（ASR），结合了无监督和监督的 AL 方法。该方法通过使用 x-vectors 聚类从未标记的语音数据中选择样本进行多样化的样本选择，从而建立了对后续监督 AL 的强大的初始数据集。与此同时，该方法还结合了专门为 ASR 开发的一种批量 AL 策略，通过使用 x-vectors 聚类实现样本多样性，并使用适应 Monte Carlo dropout 的贝叶斯 AL 方法识别出最具信息量的样本。该方法通过准确的不确定性估计，显著降低了 ASR 模型训练所需的数据量，相比竞争方法在同质、异质和 OOD 测试集上表现出优异的性能，证明了战略性样本选择和创新的贝叶斯建模在基于深度学习的 ASR 应用中可以极大地优化标记工作和数据利用。

Abstract

Emphasizing a data-centric ai approach, this paper introduces a novel two-stage active learning (AL) pipeline for automatic speech recognition

data-centric ai active learning speech recognition x-vectors clustering bayesian modeling

发现论文，激发创造

ASR 中的自适应与半监督学习：对声学和语言模型的益处

本篇论文旨在模拟在新的语音识别应用程序中应用主动学习（AL）和半监督训练（SST）带来的好处，研究数据选择方法对声学和语言模型（AM 和 LM）的影响。最终的仿真报告显示，与随机选择相比，AL 可以减少约 70％的转录成本，或在固定转录预算的情况下将单词错误率提高约 12.5％。

Mar, 2019

贝叶斯批次主动学习作为稀疏子集逼近

本研究提出一种基于贝叶斯批量主动学习方法来解决大规模监督模型中标签获取成本高的问题，从而利用大量未标记数据来改善模型性能。此方法通过逼近模型参数的完整数据后验概率，并使用随机投影技术来推广到任意模型，从而使批处理的数据选择更加多样，有效降低了计算复杂度，并在多个大规模回归和分类任务上得到了证实。

Aug, 2019

一种新的批量主动学习方法及其应用于合成孔径雷达数据集

使用 Dijkstra 的 Annulus Core-Set 和 LocalMax 相结合的批处理主动学习方法，在维持模型准确度的同时提高了效率，应用于 FUSAR-Ship 和 OpenSARShip 数据集的分类，并超越了基于 CNN 的现有方法。

Jul, 2023

朝向端到端无监督语音识别

介绍一种改进的 wav2vec-U 2.0 方法，通过更好的结构来消除语音处理的需要，并引入自监督目标来实现更好的准确度，从而在不同语言下提高了非监督性识别结果。

Apr, 2022

贝叶斯 HMM 聚类 x 向量序列（VBx）在说话人分离中的理论、实现和标准任务分析

VBx diarization method achieves superior performance on CALLHOME, AMI, and DIHARDII datasets by using a Bayesian hidden Markov model to find speaker clusters in x-vector sequences, and efficient formulae for the VBx model are presented while highlighting the lack of a standardized evaluation protocol for the AMI dataset in this paper.

Dec, 2020

几乎无监督的文本转语音和自动语音识别

本文提出了一种基于 Transformer 模型的几乎无监督学习方法，结合 TTS 和 ASR 的双重特性，通过少量的配对数据和额外的未配对数据，实现了对语音和文本领域的语言建模，并在 LJSpeech 数据集上达到了 99.84% 的可懂单词率和 2.68 MOS 的 TTS 表现，以及 11.7% 的 ASR 错误率。

May, 2019

自然语言处理的深度贝叶斯主动学习：一项大规模实证研究结果

本篇论文就深度主动学习进行了大规模实证研究，针对多种任务和数据集、模型以及获取函数，证实贝叶斯主动学习方法在许多方面都优于传统的不确定性采样方法。

Aug, 2018

利用未对齐的语音和文本训练的非监督自动语音识别技术

本文研究无监督语音识别方法，提出由语音向量表示、语义嵌入和无监督转换的框架，这一框架可用于缺乏音频文本对齐数据和受监督方法无法应用的低资源语言。

Mar, 2018

基于聚类的主动学习与多样性探索缓解标注数据不足问题

该论文提出了一种新的基于聚类的主动学习框架 (ALCS)，其中使用密度聚类方法探索数据的聚类结构，并引入基于双簇边界的样本查询程序以提高高度重叠类别分类的学习性能，此外，我们开发了有效的多样性探索策略来解决样本查询中的冗余问题，实验证明了该方法的有效性。

Jul, 2022

资源受限环境中的深度主动音频特征学习

讨论一种在生物声学应用中使用主动学习框架并结合特征提取的方法，能够有效减少数据标记的工作量，提高分类模型的效果。

Aug, 2023