Mar, 2024

MSLM-S2ST:一个适用于无文本语音到语音翻译的多任务语音语言模型,保持说话人风格

TL;DR该研究提出了一种名为 Multitask Speech Language Model(MSLM)的解码器模型,通过在多任务环境下训练,实现了无需文本训练数据的多语言语音翻译(S2ST),并具备说话者风格保留的能力。