Hypr: ASR假设修订的全面研究与参考文献
使用自动语音识别提供的多个文本替代方案,采用简化的表述方式,通过 transformer 模型 BERT 和 XLM-RoBERTa 对 N-best 替代方案的连接作为输人,提高了 Spoken Language Understanding 系统的性能。
Jun, 2021
本研究探讨了针对训练资源匮乏的五种语言十种不同数据划分方法的模型性能,揭示不同说话者数据选取对模型性能的影响,表明在数据稀缺情况下采用基于随机划分的数据分割可以产生更可靠和可推广的结果。
Aug, 2022
本文研究发现,使用不同数量的文本数据进行训练和 fine-tune transformer model 可以降低自动语音识别(ASR)的 word error rate,其中 lexicon 对于改善 ASR 性能没有多大作用,而使用必要量的文本数据可以通过利用自然语言处理技术使自动语音识别接近人类的水平。
Feb, 2023
该研究论文介绍了端到端自动语音识别模型的分类和改进,讨论了它们对传统隐马尔科夫模型的影响,涵盖了模型、训练、解码和外部语言模型集成等各个方面,同时讨论了性能和部署机会以及未来的发展前景。
Mar, 2023
本文提出了一个简单的方法Hystoc,通过将系统ASR的n最佳输出中的假设转化为混淆网络进行迭代对齐过程,从而获得单词级置信度。同时,研究者还证明了利用Hystoc对多个e2e ASR系统进行融合会增加融合的收益。
May, 2023
采用外部巨大语言模型(LLMs)进行自动语音识别(ASR)错误订正的首个开源基准测试涵盖了超过334,000个N-best假设及相应准确转录数据对,通过三种不同程度标记的假设-转录对利用LLMs实现了显著的词错误率(WER)降低,实验结果表明该技术突破了传统的重新排名方法上限并具备生成能力,从而纠正了N-best列表中缺失的标记,提供了一个基于LLMs的ASR错误订正的全新评估范式。
Sep, 2023
通过提出一个Speech和Text综合考虑的Error Explainable Benchmark数据集,我们能够更全面地了解ASR模型的不足之处,消除系统的弱点,从而提高用户体验。
Jan, 2024