利用语义距离度量评估用户对语音识别系统质量的感知

Oct, 2021

利用语义距离度量评估用户对语音识别系统质量的感知

Evaluating User Perception of Speech Recognition System Quality with Semantic Distance Metric

Suyoun Kim, Duc Le, Weiyi Zheng, Tarun Singh, Abhinav Arora...

TL;DR本研究提出使用使用预训练语言模型提取参考和假设的语义向量之间的距离来衡量 ASR 输出假设的语义正确性，实验结果表明，SemDist 比 WER 更能与用户感知相一致，并且比 WER 更能与下游的自然语言理解任务相一致。

Abstract

Measuring automatic speech recognition (ASR) system quality is critical for creating user-satisfying voice-driven applications. Word Error Rate (WER) has been traditionally used to evaluate ASR system quality; however, it sometimes correlates poorly with →

automatic speech recognition quality evaluation semantic correctness reference and hypothesis user perception

发现论文，激发创造

用合成语音训练识别器评估语音合成

论文提出了一种基于训练合成语音自动识别模型并评估其在真实语音上表现的评估技术，该指标与意见分数自然性和可懂性均呈现出强相关性。

Oct, 2023

使用 BERTScore 评估 ASR 模型在失语言上的质量

该研究调查了使用 BERTScore 作为语音识别模型质量评估的度量标准。BERTScore 与 WER 相比，在计算错误类型和评估方面更符合人工评定的标准。因此，BERTScore 可以在实际应用中辅助 WER，特别是在无障碍应用中，即使模型的精度比典型语音的精度低，模型仍然是有用的。

Sep, 2022

自动语音识别系统无关词错误率评估

提出了一种用于 ASR 系统独立的 WER 估计的假设生成方法，通过使用语音相似或语言上更可能的替代词产生假设，并在域内数据上达到了与 ASR 系统相关的 WER 估计器相似的性能，在域外数据上实现了最先进的性能。

Apr, 2024

混合 SD（H_SD）：自动语音识别任务的新混合评估指标

本文提出了一种新的自动语音识别系统的综合评估指标 Hybrid-SD，该指标既考虑语义正确性又考虑错误率，通过使用微调技术构建快速轻量级的 SNanoBERT 模型生成句子相似度分数，并证明 H_SD 与下游任务（如意图识别和命名实体识别）的相关性更强。

Nov, 2022

我们是谁，以及我们认为自己是谁 - 评估自我知觉的准确性

本文质疑了现代自动语音识别系统在基准数据集上达到极低词错误率的报告，同时比较了三种最先进的商用自动语音识别系统在现实生活中的人类对话和公共基准测试中的表现，并得出结论：WERs 显著高于最佳报告结果。我们制定了一组准则，可帮助创建高质量注释的现实生活中多领域数据集，以训练和测试强大的 ASR 系统。

Oct, 2020

WER-BERT：基于 BERT 的自动词错误率估计在均衡序数分类范式中的应用

研究了在分类设置中进行自动 Word Error Rate 测量的平衡方法以及提出了一种基于 BERT 模型的 WER (BERT) 结构，同时介绍了一种距离损失函数来处理 e-WER 分类的序数性质，并在 Librispeech 数据集和 Google Cloud 的语音转文本 API 上进行了评估，结果表明 WER-BERT 在自动 WER 估计方面取得了最新的研究成果。

Jan, 2021

高精度语音搜索查询纠错通过可检索的语音 - 文本嵌入

通过使用多模式语音文本嵌入网络，从语音文本数据库中直接查询校正候选项，以消除音频 - 假设不匹配问题，并在将候选项添加到原始候选列表之前使用语音 - 文本嵌入距离对候选项进行评分，该方法在改善检索率的同时，降低了相对的词错误率（WER）。

Jan, 2024

使用自监督表示快速估计语音和文本的错误率

通过自监督学习表征方法，引入了一种快速的语音识别错误率估计器（Fe-WER）。实验结果在 Ted-Lium3 数据集上以均方根误差和皮尔逊相关系数两个评估指标相对于 e-WER3 基线分别提高了 19.69% 和 7.16%，而通过时长加权的估计结果与目标值的差异为 10.43% 和 10.88%。此外，该估计器的推理速度相当于实时因子的 4 倍。

Oct, 2023

基于多语言自监督对比学习的自动语音识别无参考质量度量

本文提出了一种多语言无参考质量度量方法，使用预先训练的语言模型采用对比学习的自我监督学习方式进行微调，针对自动语音识别模型提出了一个评估标准，该评估标准可以在没有参考标记的情况下比较不同自动语音识别模型的性能，并在减少识别错误和提高性能方面效果显著。

Jun, 2023

无监督的跨语言语音识别误率标准化

提出了一种基于拼写和分词的自动化 WER 规范系统，通过在四种语言上的实验，平均 WER 降低了 13.28％。同时，基于该系统的标注数据的人工实验结果表明，该文中所提出的 WER 规范方法与 ASR 输出的感知质量高度一致。

Mar, 2023