Jun, 2024
关于异质数据源对语音转文字基础模型的影响
On the Effects of Heterogeneous Data Sources on Speech-to-Text Foundation Models
Jinchuan Tian, Yifan Peng, William Chen, Kwanghee Choi, Karen Livescu...
TL;DR通过分析数据集,我们引入了 OWSM v3.2,采用两种关键策略(代理任务筛选数据和使用大型开放语言模型进行标点符号和大小写处理),从而提高了 Open Whisper-style Speech Model v3.1 基线的性能,并减少了 15% 的训练数据。