Hystoc:端到端 ASR 系统融合中获取单词可信度
本研究利用双向长短时记忆(BLSTM)模型进行自动语音识别(ASR)中的可信度估计,通过利用多种 ASR 解码得分作为辅助特征,该模型在高度不平衡的情况下稳定展现出高可信度估计表现,并且大幅优于基于 Transformer 的可信度估计模型。
Dec, 2023
这篇论文提出了 CIF-Aligned 的置信度估计模型(CA-CEM),并使用 Paraformer 实现了精确可靠的置信度估计,最终在 AUC、RMSE、ECE-U 等多个指标上获得显著改进。
May, 2023
本文探讨如何使用语音识别器的置信度得分来评估转录质量,提出了一种名为信心估计模块(CEM)的轻量化且有效的方法来解决端到端模型的过度置信问题,并发现 CEM 能潜在地改善半监督学习等下游任务。
Oct, 2020
提出了一种增强对 ASR 错误鲁棒性的新型端到端(E2E)口语理解(SLU)系统,通过基于 ASR 假设的估计模态置信度融合音频和文本表示,来解决 E2E SLU 系统在文本表示质量低时的问题,并通过在 STOP 数据集上的准确性改进和分析来证明我们的方法的有效性。
Jul, 2023
本文提出了一个新的方法,通过从单词网格中提取信息来提高语音识别的准确性,并获得一组更为清晰的备选假设,特别是在显式最小化字错误率的情况下,通过在小的单词候选集上局部搜索来改变标准问题公式,利用混淆网络来压缩网格,词汇定位和集合假设的重新评估。
Oct, 2000
使用 Temporal-Lexeme Similarity 方法训练 Ancillary Confidence Estimation Model 并应用于 End-to-End Automatic Speech Recognition,取得了显著降低 Word Error Rate 的效果。
Jan, 2024
本文提出了一种在 E2E 系统中改进字时分类器的方法,该方法采用了传统的 CTC 损失连接与低级别 Mel-scale 滤波器和高级 ASR 编码器输出相结合的输入特征。与混合系统和之前的 E2E 方法相比,在内部中文语料库上,提出的方法在字时准确性指标上分别取得了 95.68%/94.18%的成绩,并通过延迟 CTC 峰值来进一步提高了字时准确性。
Jun, 2023
本文提出了一种用于测量当前深度学习模型在文档信息提取任务中置信度的完整新型体系结构,该体系结构包括一种多模态符合预测器和一种变分聚类定向异常检测器,并在真实世界数据集上进行了评估,不仅大大优于竞争对手的置信度估计器,而且还展示了对超出分布数据的泛化能力。
Jun, 2022
本文探索基于置信度的集成模型方法,证明 5 种单语音模型组合胜于使用专用语言识别块的模型选择,同时结合基础模型和适应模型,可在数据原始状态和目标状态下获得强大结果。
Jun, 2023