Apr, 2021
SPGISpeech:5000 小时的财经音频文本,用于完全格式化的端到端语音识别
SPGISpeech: 5,000 hours of transcribed financial audio for fully formatted end-to-end speech recognition
Patrick K. O'Neill, Vitaly Lavrukhin, Somshubra Majumdar, Vahid Noroozi, Yuekai Zhang...
TL;DR本文提出了一种新的语音转文字任务,即端到端的全格式文本转换,通过训练 Conformer-based 模型,成功实现了一个基线模型。