Sep, 2023

Mi-Go:使用 YouTube 作为数据源评估类似 OpenAI Whisper 的语音识别模型的测试框架

TL;DR介绍了一种名为 Mi-Go 的新型测试框架,旨在对通用语音识别机器学习模型在多样真实场景中的性能和适应性进行评估。该框架利用 YouTube 作为丰富且持续更新的数据来源,考虑多种语言、口音、方言、讲话风格和音频质量水平。通过对 OpenAI 开发的 Whisper 模型进行测试,采用了共计 124 个 YouTube 视频进行测试,结果突显了 YouTube 作为语音识别模型宝贵的测试平台的实用性,确保其对多种语言和声学条件的稳健性、准确性和适应性。此外,通过对比机器生成的转录与人工制作的字幕,Mi-Go 框架可帮助发现 YouTube 字幕的潜在滥用,如搜索引擎优化。