用合成标题改进文本到音频模型
近年来,通过对成对音频和字幕进行数据集的研究,自动生成音频剪辑的描述取得了显著的成功,即自动音频字幕生成(AAC)。然而,收集足够数量的配对音频和字幕的工作需要大量人力和时间。受到对比语言音频预训练(CLAP)最新进展的启发,我们提出了一种弱监督方法来训练 AAC 模型,只需要文本数据和经过预训练的 CLAP 模型,从而减轻了对配对目标数据的需求。我们的方法利用 CLAP 中音频和文本嵌入之间的相似性。在训练过程中,我们学习从 CLAP 文本嵌入中重构文本,在推断过程中,我们使用音频嵌入进行解码。为了减小音频和文本嵌入之间的模态差距,我们采用了在训练和推断阶段桥接差距的策略。我们在 Clotho 和 AudioCaps 数据集上评估了我们提出的方法,证明其相对于使用配对目标数据训练的完全监督方法可达到高达 83% 的性能水平。
Sep, 2023
我们提出了两种新模型 AutoCap 和 GenAu 来解决由于数据稀缺和标题质量不足造成的环境声音和效果生成问题,AutoCap 利用音频的元数据显著提高了标题的质量,而 GenAu 则通过使用新数据集进行训练,在生成的音频质量上取得了显著的改善。
Jun, 2024
该研究试图通过将图像字幕数据集中的字幕转移到视频剪辑中,从而消除了在文本 - 视频检索和文本 - 音频检索中缺乏大规模训练数据的难题,并创建了一个大规模音频 - 视频字幕数据集,使得使用这个数据集能够训练出性能优异的多模态转换模型,并在视频检索和视频字幕任务中达到或超越 HowTo100M 预训练 20 倍剪辑所能达到的性能,并且能够实现文本 - 音频预训练,并在音频检索任务中达到最先进的结果。
Apr, 2022
该研究针对预先训练的文本和频谱图变换器,提出了一种基于文本的音频检索系统。系统的两个关键组件是基于自注意力机制的音频编码器和在预训练期间利用附加的人工生成和合成数据集。该系统在 2023 年的 DCASE 挑战中排名第一,在 ClothoV2 基准测试中的表现优于当前的最新技术,提高了 5.6 个百分点的 mAP@10。
Aug, 2023
本研究提出了一种音视频框架,利用原始音频信号学习,通过 Modality Balanced Pre-training 优化模型,且采用局部和全局融合机制进行信息交换,以提高视频字幕生成的性能。
Jun, 2023
利用预训练模型和未标注视频数据,本研究提出了一个新的方法来实现从文本到音频的合成。研究使用频繁出现的视听对应来克服高质量文本标注存在的难点,并通过传输模式来进一步提升性能。
Jun, 2023
本研究提出了一种新方法,通过结合合成的图像文本对来解决图像标注中存在的跨模态对齐问题。通过使用预训练的文本到图像模型生成图像,并优化合成图像在 CLIP 嵌入空间中的伪特征以接近真实图像特征,同时利用图像中的显著对象来增强模态对齐的学习。实验证明,该方法在基准数据集上取得了最先进的性能。
Dec, 2023
我们通过增加自然语言标签和相应的音频信号处理操作,使用大型语言模型提供了一个高质量的训练数据集,该数据集在文本和音频相关模型的基准测试中提供了多样化且更好对齐的示例,从而改善了模型的性能。
May, 2024
本文提出了一个对比学习的流程,通过语音数据和自然语言描述来开发一个音频表示,构建了一个对比语音 - 语言预训练模型,通过 LAION-Audio-630K 数据集,并将特征融合机制和关键词 - 标题增强等机制纳入模型设计来增强模型的处理能力,在三个任务中检验模型表现,取得了优秀的性能表现。
Nov, 2022