Nov, 2022

面向现实无文字语言的语音翻译

TL;DR该论文以英文 - 台湾闽南语为案例,研究了语音到语音的翻译,包括数据收集、建模和基准数据集的发布。通过人工注释、数据自动挖掘以及伪标注方法,收集了大量数据。在模型训练中,结合最近的自监督离散表示的应用以及与福建话相似的普通话文本监督,取得了良好的效果。最后,该论文推出了一个 S2ST 基准数据集,以助于未来的研究。