基于置信度的端到端语音识别模型集成
本论文研究基于概率集成框架实现自回归结构化预测任务中的不确定性估计,并提供了 WMT'14 英语-法语、WMT'17 英语-德语翻译和 LibriSpeech 语音识别数据集上的基准测试结果。
Feb, 2020
本文介绍了语音翻译技术从松散耦合的串联模型到紧耦合再到最近备受关注的端到端模型的发展历程,讨论了传统方法所面临的主要挑战和最新方法对克服这些问题的方案。通过对传统和最新方法进行统一分类和命名,以解决语音识别和数据缺失问题等开放性研究问题。
Apr, 2020
本文探讨如何使用语音识别器的置信度得分来评估转录质量,提出了一种名为信心估计模块(CEM)的轻量化且有效的方法来解决端到端模型的过度置信问题,并发现CEM能潜在地改善半监督学习等下游任务。
Oct, 2020
研究探讨了在自动语音识别中单一基准测试数据的数字推动是否具有价值,发现噪声增强有助于提高模型的泛化性能,并且使用大量的基准测试数据可以良好地代表真实世界中的性能表现,最终得出在广泛使用的数据集上训练单一声学模型可达到竞争性的研究和现实世界基准测试性能。
Oct, 2020
本文研究了预训练神经模型在自动语音识别中的鲁棒性,并对wav2vec2,HuBERT和DistilHuBERT进行了鲁棒性分析,发现它们在LibriSpeech和TIMIT数据集上对噪声的鲁棒性不同,同时进行了层次分析以预测每层的学习,通过误差传播和对比清晰和嘈杂的数据,验证了Pasad等人的预测,并提出未来研究的有趣方向。
Aug, 2022
本文提出了一个简单的方法Hystoc,通过将系统ASR的n最佳输出中的假设转化为混淆网络进行迭代对齐过程,从而获得单词级置信度。同时,研究者还证明了利用Hystoc对多个e2e ASR系统进行融合会增加融合的收益。
May, 2023
通过使用早期退出结构,我们研究了用于大词汇语音识别的动态模型,这些模型可以根据可用资源和识别性能自动调整其计算成本。与以前的工作不同的是,我们不仅使用预训练的骨干网络,还使用早期退出结构从头开始训练模型。通过在公共数据集上的实验证明,与使用较少编码器层或使用预训练模型相比,从头开始的早期退出结构不仅保持了性能水平,还提高了任务准确性。此外,我们还研究了一种基于后验概率的退出选择策略,作为基于帧熵的替代方案。
Sep, 2023
近年来,由于转换器等深度学习架构的进展,端到端(E2E)自动语音识别(ASR)模型的演变令人瞩目。在E2E系统的基础上,研究人员通过使用音素模型对E2E模型的N个最佳假设进行重新评分,实现了相当大的准确性提升。我们研究了驱动这些改进的潜在机制,并提出了一种高效的联合训练方法,其中E2E模型与多样的建模单元联合训练。这种方法不仅使音素和字素模型的优势得到了衔接,还揭示出以这些多样的建模单元协同方式使用可以显著提高模型的准确性。我们的发现为在开发更可靠准确的ASR系统时,异构建模单元的最佳整合提供了新的见解。
Jun, 2024
本研究针对大型语言模型(LLMs)在自动语音识别(ASR)系统中的应用问题,提出了一种基于置信度的过滤方法以进行ASR转录的后期校正,以避免对准确转录引入错误。研究表明,该方法能够提升表现较差的ASR系统的性能,具有重要的潜在影响。
Jul, 2024