说话人分离的平衡误差率
研究了在分类设置中进行自动 Word Error Rate 测量的平衡方法以及提出了一种基于 BERT 模型的 WER (BERT) 结构,同时介绍了一种距离损失函数来处理 e-WER 分类的序数性质,并在 Librispeech 数据集和 Google Cloud 的语音转文本 API 上进行了评估,结果表明 WER-BERT 在自动 WER 估计方面取得了最新的研究成果。
Jan, 2021
该研究调查了使用 BERTScore 作为语音识别模型质量评估的度量标准。BERTScore 与 WER 相比,在计算错误类型和评估方面更符合人工评定的标准。因此,BERTScore 可以在实际应用中辅助 WER,特别是在无障碍应用中,即使模型的精度比典型语音的精度低,模型仍然是有用的。
Sep, 2022
本文提出基于范围的均等错误率来评估欺骗定位表现的新指标,并使用二分搜索算法与传统的基于点的均等错误率进行比较,结果表明使用正确的时间分辨率的点均等错误率或者基于范围的均等错误率都可以公正和准确地评估欺骗定位表现。
May, 2023
本篇论文探讨了使用语言模型的 Speaker diarization second-pass error correction approach 引入词汇信息,可以有效且稳健地提高多个电话数据集上的单词级别 Diarization 错误率(WDER)降低 15%至 30%。
Jun, 2023
本文提出了一种新的自动语音识别系统的综合评估指标 Hybrid-SD,该指标既考虑语义正确性又考虑错误率,通过使用微调技术构建快速轻量级的 SNanoBERT 模型生成句子相似度分数,并证明 H_SD 与下游任务(如意图识别和命名实体识别)的相关性更强。
Nov, 2022
该论文描述了 TSUP 团队在 ISCSLP 2022 CSSD 挑战赛中的参赛表现和关键研究成果,侧重于短话语音者分离与新的评价指标 CDER。SC 方法是最受欢迎的方法并且所有的三种语音者分离系统都需要调参,最后 SC 系统的表现居于第三名。
Oct, 2022
本研究提出使用使用预训练语言模型提取参考和假设的语义向量之间的距离来衡量 ASR 输出假设的语义正确性,实验结果表明,SemDist 比 WER 更能与用户感知相一致,并且比 WER 更能与下游的自然语言理解任务相一致。
Oct, 2021
提出了一种新颖的多语言语音识别框架 ——eWER3,通过联合训练声学和词汇表示来估计词错误率,该模型推动了邻近语言的表现,并在估计单词错误率的方法上优于以往的单语言方法(eWER2)。
Apr, 2023
提出了一种用于 ASR 系统独立的 WER 估计的假设生成方法,通过使用语音相似或语言上更可能的替代词产生假设,并在域内数据上达到了与 ASR 系统相关的 WER 估计器相似的性能,在域外数据上实现了最先进的性能。
Apr, 2024