关键词contrastive language-audio pretraining
搜索结果 - 6
- T-CLAP:时间增强对比语言 - 音频预训练
使用大型语言模型和混淆策略生成音频剪辑的时序对比性描述,并设计新的时序对比损失函数来改进对比性语音 - 文本预训练模型 (T-CLAP),结果在多个下游任务中显示出更强的捕捉音频事件时序关系的能力并显著超越了最先进的模型。
- tinyCLAP:压缩对比式语音 - 文本预训练模型
研究通过减少数据和计算复杂性来降低对比性语言音频预训练模型的复杂性,得到一个高效模型 ——tinyCLAP,该模型仅使用原 Microsoft CLAP 参数的 6%,在测试的三个声音事件检测数据集上,零样本分类性能仅降低不到 5%。
- VoiceLDM:具有环境上下文的文本转语音
VoiceLDM 是一个基于潜在扩散模型的文本到音频模型,通过结合描述提示和内容提示,能够生成与输入条件对齐的逼真音频,并展示了在语音智力测试集上甚至超过参考音频的结果,同时还探索了 VoiceLDM 的文本到语音和零样本文本到音频的能力。
- 基于文本 - only 训练实现的弱监督自动音频字幕生成
近年来,通过对成对音频和字幕进行数据集的研究,自动生成音频剪辑的描述取得了显著的成功,即自动音频字幕生成(AAC)。然而,收集足够数量的配对音频和字幕的工作需要大量人力和时间。受到对比语言音频预训练(CLAP)最新进展的启发,我们提出了一种 - 具备人类语言监督的可转移生物声学模型
利用无损声学监测方法追踪全球生物多样性和人类活动对物种的影响,在此工作中,我们提出了一种基于对比语音 - 音频预训练的生物声学模型 BioLingual,该模型能够跨类别识别超过一千种动物的叫声并通过自然语言查询检索动物语音记录。
- GEmo-CLAP:增强性别属性对比的语音文本预训练用于言语情感识别
本文提出了 GEmo-CLAP,一种高效的性别属性增强的 CLAP 模型,用于语音情感识别,在 IEMOCAP 语料库上表现优于 Emo-CLAP 基线和其他先进方法。