ASR 中的自适应与半监督学习:对声学和语言模型的益处
该论文提出了一种融合标注和模型训练的主动学习方法,结合半监督学习和基于一致性的样本选择度量,实现从未标注数据中选取最优数据来改善模型性能,在图像分类任务中实验结果显示出优异表现,同时探究了学习式主动学习方法的起点问题并提出了相关测量指标。
Oct, 2019
本文研究了 ResNet、时深分离卷积神经网络和变压器等半监督训练方法,在标准数据集 LibriSpeech 上,通过伪标签来利用来自 LibriVox 的额外未标记数据。研究结果表明,半监督训练可以改善所有架构和损失函数的模型,并在它们之间缩小性能差距,在标准监督学习设置下,获得了端到端声学模型的最新技术水平,并且半监督训练取得了新的绝对技术水平。此外,文章研究了利用不同数量的未标记音频的效果,并提出了几种评估未标记音频特性的方法,证明使用更多的音频进行训练能够减少对外部语言模型的依赖。
Nov, 2019
该研究通过强调数据为中心的人工智能方法,引入一种新的两阶段主动学习(AL)流程,用于自动语音识别(ASR),结合了无监督和监督的 AL 方法。该方法通过使用 x-vectors 聚类从未标记的语音数据中选择样本进行多样化的样本选择,从而建立了对后续监督 AL 的强大的初始数据集。与此同时,该方法还结合了专门为 ASR 开发的一种批量 AL 策略,通过使用 x-vectors 聚类实现样本多样性,并使用适应 Monte Carlo dropout 的贝叶斯 AL 方法识别出最具信息量的样本。该方法通过准确的不确定性估计,显著降低了 ASR 模型训练所需的数据量,相比竞争方法在同质、异质和 OOD 测试集上表现出优异的性能,证明了战略性样本选择和创新的贝叶斯建模在基于深度学习的 ASR 应用中可以极大地优化标记工作和数据利用。
May, 2024
该研究提出了一种名为 IDEAL 的算法,采用不一致性为基础的虚拟对抗积极学习方法来探索半监督学习和积极学习的潜在优势,通过数据采样和增强策略来评估未标记样本的不一致性并取得了良好的实验效果。
Jun, 2022
本文提出了一种基于端到端系统的自学习半监督自动语音识别方法,通过对无监督数据的伪标记迭代地增强有标记的数据,从而提高系统性能,实现数据增强效果,获得了 14.4% 的相对识别错误率改进。
Jan, 2020
在大型语言模型时代,我们提出了创新的协作学习框架 FreeAL,通过与 LLMs 交互式提取和过滤任务特定知识,显著提高了 SLM 和 LLM 的零样本性能,无需人工监督。
Nov, 2023
本研究探讨了半监督学习与预训练语言模型在数据生成文本方面的效果。结果表明,半监督学习方法可以增强输出质量和多样性,即使已经使用了预训练语言模型。
Jul, 2022