Apr, 2021

SPGISpeech:5000 小时的财经音频文本,用于完全格式化的端到端语音识别

TL;DR本文提出了一种新的语音转文字任务,即端到端的全格式文本转换,通过训练 Conformer-based 模型,成功实现了一个基线模型。