Sep, 2023

音韵学反演:对语言不流利的言语进行声学到言语器官的转换:在预训练的自监督表征中是否有优势?

TL;DR使用预先训练的自监督学习模型,对发音不清的言语进行声学到发音学的逆向映射,通过条件化 x-vectors 来训练 BLSTM 网络,使用不同的预先训练特征进行低资源条件下的挑战性声学到发音学逆向映射任务,在实验中观察到 DeCoAR 在细调方案中相对于 MFCC 的皮尔森相关系数分别在健康控制组和患者组上提高了约 1.81% 和约 4.56%,同时发现具有特征重构或未来时间步预测任务的 SSL 网络(如 wav2vec、APC 和 DeCoAR)预测发音不清的发声轨迹的性能表现良好。