M-SpeechCLIP: 利用大规模预训练模型实现多语言语音到图像检索
本文提出了一种名为 SpeechCLIP 的新框架,通过图像将语音和文本结合起来,从而改善语音模型的性能,无需直接从转录中进行监督。SpeechCLIP 使用先进的预训练 HuBERT 和 CLIP 模型,并通过配对的图像和口头字幕进行对齐,实现了零样本语音 - 文本检索和语音中关联关键字的提取。
Oct, 2022
通过有限的预算,我们尝试解决多语言图像检索的挑战性任务,展示出使用 NLLB-CLIP 模型的训练结果,该模型在低资源语言上的质量与最先进模型相媲美且明显优于它们。
Sep, 2023
利用大规模预训练的图像 - 文本模型对声源定位进行了扩展,通过音频信号与图像的对应关系,生成音频驱动的嵌入向量,以此对提供的音频生成驱动遮罩,并提取高亮区域的音频驱动图像特征,并与音频驱动的嵌入向量进行对齐,实现声音对象的更完整和更紧凑的定位图。广泛实验证明,该方法在表现上优于最先进的方法。
Nov, 2023
CLIP 模型是基于文本查询的图像检索的重要进展,通过在大规模数据集上进行训练获得显著的泛化能力,实现了图像和文本的跨模态理解,促进了自然语言理解和计算机视觉的无缝集成,为多媒体应用中的信息检索提供了强大的工具。
Jan, 2024
通过使用科学论文的文本 - 图像数据,该研究探索在特定领域内加入具有更高质量的有限数量数据是否能够提高 CLIP 模型的整体性能。小规模实验结果显示模型性能有中等程度的提升,表明使用该研究所考虑的数据来源来训练大规模 CLIP 模型是一个有价值的研究方向。
Nov, 2023
我们提出了一个概念简单但有效的多语言 CLIP 压缩框架,并训练了一个轻量级的多语言视觉 - 语言模型 DC-CLIP,用于中文和英文环境。在零样本图像分类方面的综合实验表明,相比于现有的类似参数规模的模型,DC-CLIP 在英文环境中取得了优越的性能,在中文环境中表现出竞争性能,即使使用较少的训练数据。我们设计的训练机制证明了其有效性。
Apr, 2024
通过连续语言学习 (CL) 扩展视觉 - 语言预训练模型 (VL-PTMs) 的语言能力,并提出了 CLL-CLIP 模型,其通过仅训练标记嵌入来改善内存稳定性,并通过跨模态和跨语言目标进行优化以学习图像和多语种文本之间的对齐关系,实验证明该方法在多语言图像 - 文本检索性能上具有有效性。
Jan, 2024
通过多任务对比训练方法,我们提出了一种新颖的 jina-clip-v1 模型训练方法,以在文本 - 图像和文本 - 文本检索任务上实现了最先进的性能。
May, 2024
该研究使用中文数据构建巨大的图像文本配对数据集,并使用其预训练中文 CLIP 模型,该模型能够在零 - shot 学习和微调设置下,在 MUGE、Flickr30K-CN 和 COCO-CN 上实现最新技术水平,并能够在 ELEVATER 基准测试中实现竞争性能。
Nov, 2022
在这项研究中,我们引入了 MobileCLIP 这个新的高效图像 - 文本模型系列,通过一种名为多模态增强训练的新颖且高效的训练方法,利用图像字幕模型和一组强大的 CLIP 编码器中的知识转移,将额外的知识存储在增强数据集中而避免了训练时计算开销,从而实现了零样本分类和检索任务的新的最佳延迟 - 准确性权衡。
Nov, 2023