Nov, 2022

大规模对比语音语言预训练:特征融合与关键词生成式扩充

TL;DR本文提出了一个对比学习的流程,通过语音数据和自然语言描述来开发一个音频表示,构建了一个对比语音 - 语言预训练模型,通过 LAION-Audio-630K 数据集,并将特征融合机制和关键词 - 标题增强等机制纳入模型设计来增强模型的处理能力,在三个任务中检验模型表现,取得了优秀的性能表现。