M-SpeechCLIP: 利用大规模预训练模型实现多语言语音到图像检索

Nov, 2022

M-SpeechCLIP: 利用大规模预训练模型实现多语言语音到图像检索

M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for Multilingual Speech to Image Retrieval

PDF

Layne Berry, Yi-Jen Shih, Hsuan-Fu Wang, Heng-Jui Chang, Hung-yi Lee...

TL;DR此研究探讨了使用大规模预训练模型（CLIP 和 HuBERT）进行多语言语音图像检索的方法，并取得了比现有最新技术更好的非英语语音图像检索成果。

Abstract

This work investigates the use of large-scale, pre-trained models (clip and hubert) for multilingual →

clip hubert multilingual speech-image retrieval state-of-the-art

发现论文，激发创造

SpeechCLIP：将语音与预训练的视觉和语言模型相融合

本文提出了一种名为 SpeechCLIP 的新框架，通过图像将语音和文本结合起来，从而改善语音模型的性能，无需直接从转录中进行监督。SpeechCLIP 使用先进的预训练 HuBERT 和 CLIP 模型，并通过配对的图像和口头字幕进行对齐，实现了零样本语音 - 文本检索和语音中关联关键字的提取。

Oct, 2022

NLLB-CLIP – 在预算内训练高性能多语言图像检索模型

通过有限的预算，我们尝试解决多语言图像检索的挑战性任务，展示出使用 NLLB-CLIP 模型的训练结果，该模型在低资源语言上的质量与最先进模型相媲美且明显优于它们。

Sep, 2023

CLIP 能帮助声源定位吗？

利用大规模预训练的图像 - 文本模型对声源定位进行了扩展，通过音频信号与图像的对应关系，生成音频驱动的嵌入向量，以此对提供的音频生成驱动遮罩，并提取高亮区域的音频驱动图像特征，并与音频驱动的嵌入向量进行对齐，实现声音对象的更完整和更紧凑的定位图。广泛实验证明，该方法在表现上优于最先进的方法。

Nov, 2023

增强图像检索：基于 CLIP 模型的照片搜索的全面研究

CLIP 模型是基于文本查询的图像检索的重要进展，通过在大规模数据集上进行训练获得显著的泛化能力，实现了图像和文本的跨模态理解，促进了自然语言理解和计算机视觉的无缝集成，为多媒体应用中的信息检索提供了强大的工具。

Jan, 2024

使用科学论文数据训练 CLIP 模型

通过使用科学论文的文本 - 图像数据，该研究探索在特定领域内加入具有更高质量的有限数量数据是否能够提高 CLIP 模型的整体性能。小规模实验结果显示模型性能有中等程度的提升，表明使用该研究所考虑的数据来源来训练大规模 CLIP 模型是一个有价值的研究方向。

Nov, 2023

多语言场景的渐进式视觉语言知识蒸馏和对齐框架

我们提出了一个概念简单但有效的多语言 CLIP 压缩框架，并训练了一个轻量级的多语言视觉 - 语言模型 DC-CLIP，用于中文和英文环境。在零样本图像分类方面的综合实验表明，相比于现有的类似参数规模的模型，DC-CLIP 在英文环境中取得了优越的性能，在中文环境中表现出竞争性能，即使使用较少的训练数据。我们设计的训练机制证明了其有效性。

Apr, 2024

在 CLIP 中通过持续语言学习拥抱语言包容性和多样性

通过连续语言学习 (CL) 扩展视觉 - 语言预训练模型 (VL-PTMs) 的语言能力，并提出了 CLL-CLIP 模型，其通过仅训练标记嵌入来改善内存稳定性，并通过跨模态和跨语言目标进行优化以学习图像和多语种文本之间的对齐关系，实验证明该方法在多语言图像 - 文本检索性能上具有有效性。

Jan, 2024

Jina CLIP：你的 CLIP 模型也是你的文本检索器

通过多任务对比训练方法，我们提出了一种新颖的 jina-clip-v1 模型训练方法，以在文本 - 图像和文本 - 文本检索任务上实现了最先进的性能。

May, 2024

中文 CLIP：中文对比视觉 - 语言预训练

该研究使用中文数据构建巨大的图像文本配对数据集，并使用其预训练中文 CLIP 模型，该模型能够在零 - shot 学习和微调设置下，在 MUGE、Flickr30K-CN 和 COCO-CN 上实现最新技术水平，并能够在 ELEVATER 基准测试中实现竞争性能。

Nov, 2022

MobileCLIP: 多模态加强训练的快速图像 - 文本模型

在这项研究中，我们引入了 MobileCLIP 这个新的高效图像 - 文本模型系列，通过一种名为多模态增强训练的新颖且高效的训练方法，利用图像字幕模型和一组强大的 CLIP 编码器中的知识转移，将额外的知识存储在增强数据集中而避免了训练时计算开销，从而实现了零样本分类和检索任务的新的最佳延迟 - 准确性权衡。

Nov, 2023