Nov, 2023

StyleCap:基于语音和语言自我监督学习模型的自动口语样式字幕生成

TL;DRStyleCap 提出了一种生成自然语言描述语音中出现的语言风格的方法,通过训练神经网络来预测前缀向量,并使用一个大型语言模型(LLM)的文本解码器从语音表示向量生成说话风格提示。