May, 2024

结合 X-Vectors 和贝叶斯批量主动学习:用于语音识别的两阶段主动学习流程

TL;DR该研究通过强调数据为中心的人工智能方法,引入一种新的两阶段主动学习(AL)流程,用于自动语音识别(ASR),结合了无监督和监督的 AL 方法。该方法通过使用 x-vectors 聚类从未标记的语音数据中选择样本进行多样化的样本选择,从而建立了对后续监督 AL 的强大的初始数据集。与此同时,该方法还结合了专门为 ASR 开发的一种批量 AL 策略,通过使用 x-vectors 聚类实现样本多样性,并使用适应 Monte Carlo dropout 的贝叶斯 AL 方法识别出最具信息量的样本。该方法通过准确的不确定性估计,显著降低了 ASR 模型训练所需的数据量,相比竞争方法在同质、异质和 OOD 测试集上表现出优异的性能,证明了战略性样本选择和创新的贝叶斯建模在基于深度学习的 ASR 应用中可以极大地优化标记工作和数据利用。