Jul, 2023

NPTEL MOOC 数千个视频间的单词错误率差异的深入研究

TL;DR本研究描述了一个庞大的语音数据集的构建过程,并利用该数据集评估了印度不同演讲者的性别、籍贯、年龄和语速对 YouTube 自动字幕和 OpenAI Whisper 模型性能的影响。结果表明需要更具包容性和鲁棒性的 ASR 系统以及更具代表性的数据集进行差异性评估。