通过置信度放宽增强 ASR 解码
本文对几种语音识别模型进行了实验,发现使用顶层预测的逻辑可以阻碍光束搜索算法实现最佳结果;然后,进行了层分析,提出了一种汇聚前 M 层的预测方法,通过束搜索解码来展示方法的有效性,并在 Librispeech 测试集中实现了 WER 和 CER 分别减少高达 10% 和 22%。
Mar, 2022
本文探讨如何使用语音识别器的置信度得分来评估转录质量,提出了一种名为信心估计模块(CEM)的轻量化且有效的方法来解决端到端模型的过度置信问题,并发现 CEM 能潜在地改善半监督学习等下游任务。
Oct, 2020
本文提出了一种新的自监督学习范式,利用解码器的威力提高语音识别下游任务的性能。HuBERT 框架用于计算编码器的传统掩蔽预测损失,同时在框架中引入了解码器和目标准备策略。最终,我们使用一个多任务 SSL 设置,其同时优化编码器和解码器损失,实现了 ASR 表现的 25% 相对改进。
Jun, 2022
本文旨在提供一些关于如何估计生成序列标注模型的置信度的实证见解,特别是如何可靠地评估模型对每个标记的预测置信度,我们发现,简单地使用解码器的输出概率并不是实现良好校准置信度估计的最佳方法,而我们提出的通过顶部 - k 预测的统计数据的方法,在六个不同任务的公共数据集上得到了验证。
Dec, 2022
本文介绍了一种应用于 ASR 任务的早期退出策略(EE),借此解决自我监督学习模型在大规模任务中存在的推理速度慢和网络反应过度的问题,并提出了两种新的策略来优化性能和速度之间的平衡。
Nov, 2022
本文提出了一种新型流式自动语音识别架构,可输出混淆网络并保持有限的延迟,以满足交互式应用的需要,其 1-best 结果与可比较的 RNN-T 系统相当,而更丰富的假设集允许进行第二遍重评分,以在 LibriSpeech 任务上实现 10-20%更低的字词误差率,同时在远场语音助手任务中优于强 RNN-T 基线。
Jun, 2023
我们提出了两种简单的方法,使用逐帧加法和交叉注意机制来高效地将自监督学习模型的表示纳入 ASR 架构,从而在训练期间避免使用自监督学习模型,加快了训练速度,并在 Librispeech 和 Tedlium 数据集上相较于基准模型实现了显著性能提升。
Apr, 2024
本文提出一种基于块处理编码器的流式 E2E Transformer ASR 的新型分块同步束搜索算法,并在多项实验中的表现均优于传统的在线方法,特别是在使用知识蒸馏技术时。
Jun, 2020
本文提出了一种灵活的新方法,利用一个小型的神经网络 actor 来观测和操纵先前训练的解码器的隐藏状态,以无需额外的计算成本获得几乎全部的 beam search 带来的好处。我们介绍了使用一个伪并行语料库来训练 actor 网络,它是以类似于 BLEU 的目标质量指标对基础模型的 beam search 输出排名而生成的。我们的方法受到了早期研究的启发,但不需要强化学习,并且可以可靠地在各种模型上训练。在三个平行语料库和三个架构上的实验表明,该方法可以使翻译质量和速度大大提高,超过每个基础系统。
Apr, 2018
本文提出了一种基于 N-best T5 模型和约束解码过程的语音识别自动纠错方法,通过从预训练语言模型中传递知识和获取 ASR 解码空间中更丰富的信息,该方法在 ASR 后处理中取得了更好的性能表现。
Mar, 2023