Oct, 2023

基于联合语音 - 文本模型的小样本语音理解

TL;DR通过使用预训练的语音 - 文本模型,本研究发现只需 1 小时标注的语音数据,即可与仅使用 10 倍数据的仅语音预训练模型在口语理解任务(情感分析和命名实体识别)上取得可比较的性能;同时发现底层的语音 - 文本模型作为任务自主层面,在共享空间中对齐语音和文本表示,而顶层则更加任务特定。