Mar, 2024
MSLM-S2ST:一个适用于无文本语音到语音翻译的多任务语音语言模型,保持说话人风格
MSLM-S2ST: A Multitask Speech Language Model for Textless Speech-to-Speech Translation with Speaker Style Preservation
Yifan Peng, Ilia Kulikov, Yilin Yang, Sravya Popuri, Hui Lu...
TL;DR该研究提出了一种名为 Multitask Speech Language Model(MSLM)的解码器模型,通过在多任务环境下训练,实现了无需文本训练数据的多语言语音翻译(S2ST),并具备说话者风格保留的能力。