Sep, 2023

语音与文本联合理解

TL;DR通过整合悄悄话作为感知模块和 LLaMA 作为推理模块,LTU-AS 机器学习模型可以同时识别和共同理解口语文本、语音相声和非语音音频事件 - 几乎可以从音频信号中感知到的一切。