Jun, 2024

DeSTA: 通过描述性语音文本对齐提升语音语言模型

TL;DR通过 Descriptive Speech-Text Alignment 方法,本研究提出了一种新型的语音语言模型,可以解释和生成全面的自然语言描述,从而促进对语音的语言和非语言特征的理解,并在 Dynamic-SUPERB 基准测试中展现出卓越性能,尤其是在未见过的任务上的泛化能力,同时发现对齐模型具有零样本指令跟随能力,无需显式调整语音指令,这些发现突显了通过加入丰富的描述性语音字幕来改变指令跟随语音语言模型的潜力。