BriefGPT.xyz
May, 2025
潮州-野生:首个带有拼音标注的潮州方言语料库
Teochew-Wild: The First In-the-wild Teochew Dataset with Orthographic Annotations
HTML
PDF
Linrong Pan, Chenglong Jiang, Gaoze Hou, Ying Gao
TL;DR
本研究解决了缺乏潮州方言语料的数据问题,构建了一个包含18.9小时多扬声器潮州方言的语音语料库,并提供精准的拼音和正字法标注。研究表明,该语料库在自动语音识别与语音合成任务中具有良好的实用性,推动了该低资源语言的研究与应用。
Abstract
This paper reports the construction of the
Teochew
-Wild, a
speech corpus
of the
Teochew
dialect. The corpus includes 18.9 hours of in-the-
→