利用语义距离度量评估用户对语音识别系统质量的感知
该研究调查了使用 BERTScore 作为语音识别模型质量评估的度量标准。BERTScore 与 WER 相比,在计算错误类型和评估方面更符合人工评定的标准。因此,BERTScore 可以在实际应用中辅助 WER,特别是在无障碍应用中,即使模型的精度比典型语音的精度低,模型仍然是有用的。
Sep, 2022
提出了一种用于 ASR 系统独立的 WER 估计的假设生成方法,通过使用语音相似或语言上更可能的替代词产生假设,并在域内数据上达到了与 ASR 系统相关的 WER 估计器相似的性能,在域外数据上实现了最先进的性能。
Apr, 2024
本文提出了一种新的自动语音识别系统的综合评估指标 Hybrid-SD,该指标既考虑语义正确性又考虑错误率,通过使用微调技术构建快速轻量级的 SNanoBERT 模型生成句子相似度分数,并证明 H_SD 与下游任务(如意图识别和命名实体识别)的相关性更强。
Nov, 2022
本文质疑了现代自动语音识别系统在基准数据集上达到极低词错误率的报告,同时比较了三种最先进的商用自动语音识别系统在现实生活中的人类对话和公共基准测试中的表现,并得出结论:WERs 显著高于最佳报告结果。我们制定了一组准则,可帮助创建高质量注释的现实生活中多领域数据集,以训练和测试强大的 ASR 系统。
Oct, 2020
研究了在分类设置中进行自动 Word Error Rate 测量的平衡方法以及提出了一种基于 BERT 模型的 WER (BERT) 结构,同时介绍了一种距离损失函数来处理 e-WER 分类的序数性质,并在 Librispeech 数据集和 Google Cloud 的语音转文本 API 上进行了评估,结果表明 WER-BERT 在自动 WER 估计方面取得了最新的研究成果。
Jan, 2021
通过使用多模式语音文本嵌入网络,从语音文本数据库中直接查询校正候选项,以消除音频 - 假设不匹配问题,并在将候选项添加到原始候选列表之前使用语音 - 文本嵌入距离对候选项进行评分,该方法在改善检索率的同时,降低了相对的词错误率(WER)。
Jan, 2024
通过自监督学习表征方法,引入了一种快速的语音识别错误率估计器(Fe-WER)。实验结果在 Ted-Lium3 数据集上以均方根误差和皮尔逊相关系数两个评估指标相对于 e-WER3 基线分别提高了 19.69% 和 7.16%,而通过时长加权的估计结果与目标值的差异为 10.43% 和 10.88%。此外,该估计器的推理速度相当于实时因子的 4 倍。
Oct, 2023
本文提出了一种多语言无参考质量度量方法,使用预先训练的语言模型采用对比学习的自我监督学习方式进行微调,针对自动语音识别模型提出了一个评估标准,该评估标准可以在没有参考标记的情况下比较不同自动语音识别模型的性能,并在减少识别错误和提高性能方面效果显著。
Jun, 2023
提出了一种基于拼写和分词的自动化 WER 规范系统,通过在四种语言上的实验,平均 WER 降低了 13.28%。同时,基于该系统的标注数据的人工实验结果表明,该文中所提出的 WER 规范方法与 ASR 输出的感知质量高度一致。
Mar, 2023