Nov, 2022
大规模对比语音语言预训练:特征融合与关键词生成式扩充
Large-scale Contrastive Language-Audio Pretraining with Feature Fusion and Keyword-to-Caption Augmentation
Yusong Wu, Ke Chen, Tianyu Zhang, Yuchen Hui, Taylor Berg-Kirkpatrick...
TL;DR本文提出了一个对比学习的流程,通过语音数据和自然语言描述来开发一个音频表示,构建了一个对比语音 - 语言预训练模型,通过 LAION-Audio-630K 数据集,并将特征融合机制和关键词 - 标题增强等机制纳入模型设计来增强模型的处理能力,在三个任务中检验模型表现,取得了优秀的性能表现。