Apr, 2024

T-CLAP:时间增强对比语言 - 音频预训练

TL;DR使用大型语言模型和混淆策略生成音频剪辑的时序对比性描述,并设计新的时序对比损失函数来改进对比性语音 - 文本预训练模型 (T-CLAP),结果在多个下游任务中显示出更强的捕捉音频事件时序关系的能力并显著超越了最先进的模型。