Jun, 2023
使用 Common Voice 数据集建立公平的语音识别系统
Some voices are too common: Building fair speech recognition systems using the Common Voice dataset
Lucas Maison, Yannick Estève
TL;DR本文使用法语 Common Voice 数据集对 wav2vec~2.0 模型的偏见进行计量,通过对多种固定大小的、精心制作的训练集进行微调,证明了演讲者多样性的重要性,并对 Common Voice 语料库进行了彻底分析,发现了应该被这个数据集的用户考虑的重要缺陷。