Jun, 2023

使用 Common Voice 数据集建立公平的语音识别系统

TL;DR本文使用法语 Common Voice 数据集对 wav2vec~2.0 模型的偏见进行计量,通过对多种固定大小的、精心制作的训练集进行微调,证明了演讲者多样性的重要性,并对 Common Voice 语料库进行了彻底分析,发现了应该被这个数据集的用户考虑的重要缺陷。