Dec, 2021
ASCEND:一种用于多轮会话中混用中英文的自发语言数据集
ASCEND: A Spontaneous Chinese-English Dataset for Code-switching in Multi-turn Conversation
Holy Lovenia, Samuel Cahyawijaya, Genta Indra Winata, Peng Xu, Xu Yan...
TL;DR本研究报告了 ASCEND 计划的设计及数据采集方式,其中包括 10.62 小时的高质量普通话中英文语音,采用 wav2vec 2.0 模型进行基线实验,取得了 22.69% 的字符误差率和 27.05% 的混合误差率。