SpeechCLIP+: 自我监督多任务表示学习：用于语音的 CLIP 和语音 - 图像数据

Feb, 2024

SpeechCLIP+: 自我监督多任务表示学习：用于语音的 CLIP 和语音 - 图像数据

SpeechCLIP+: Self-supervised multi-task representation learning for speech via CLIP and speech-image data

Hsuan-Fu Wang, Yi-Jen Shih, Heng-Jui Chang, Layne Berry, Puyuan Peng...

TL;DR通过替换固定数量的 CLS 令牌，基于 Continuous Integrate-and-Fire 模块的级联 SpeechCLIP 模型在语音关键词提取任务中优于之前的级联 SpeechCLIP 模型。此外，通过混合架构，级联任务学习提升了图像 - 语音检索任务中并行分支的性能。

Abstract

The recently proposed visually grounded speech model speechclip is an innovative framework that bridges speech and text through images via CLIP without relying on text transcription. On this basis, this paper int

visually grounded speech model speechclip continuous integrate-and-fire hybrid architecture multi-task learning

发现论文，激发创造

SpeechCLIP：将语音与预训练的视觉和语言模型相融合

本文提出了一种名为 SpeechCLIP 的新框架，通过图像将语音和文本结合起来，从而改善语音模型的性能，无需直接从转录中进行监督。SpeechCLIP 使用先进的预训练 HuBERT 和 CLIP 模型，并通过配对的图像和口头字幕进行对齐，实现了零样本语音 - 文本检索和语音中关联关键字的提取。

Oct, 2022

LightCLIP：轻量级视觉语言模型的多层交互学习

本文介绍了一种用于训练轻量级 CLIP 模型的多级交互范式，包括改进的全局实例级对齐目标、基于放松二分匹配的令牌级对齐目标以及使用遮蔽语言建模的额外目标。实验结果表明，该方法在多个下游任务中实现了更高的性能。

Dec, 2023

CLIP 轻量级语义分割

通过引入一个新的特征融合模块，本研究提出了一种解决使用轻量级网络的语言引导范式的方法，该模块能够在嵌入空间中促进视觉和文本特征的接近和对齐，并展示出优于之前的最佳方法的性能。

Oct, 2023

CLIP 模型是高效的继续学习器

本文发现，CLIP（Contrastive Language-Image Pretraining）模型在冻结状态下，在不进行任何微调（零次评估）的情况下提供惊人的持续学习表现。作者在多种设置（包括类增量、域增量和任务不可知的增量学习）和五个流行基准测试集上评估了 CLIP 模型，证明了其在大多数设置中优于现有模型；同时作者还通过改变简单提示模板的文本输入来研究 CLIP 模型性能的影响。作者鼓励在持续学习任务中使用这种强大而非常简单的基线方法进行未来的比较。

Oct, 2022

SCLIP：为密集视觉语言推理重新思考自注意力

通过引入新的自相关自注意力（CSA）机制，增强了 CLIP 在语义分割方面的潜力，并且在零样本 mIoU 方面明显优于现有的 SoTA 结果和原始的 CLIP。

Dec, 2023

HiCLIP: 基于分层感知注意力的对比语言 - 图像预训练

本文提出了用层级感知的注意力机制改进 CLIP 模型，以更好的捕捉图像和文本的高层语义，并在视觉识别和与视觉相关的下游任务中获得良好的结果。

Mar, 2023

Cascade-CLIP: 零样本语义分割的级联视觉 - 语言嵌入对齐

基于预训练视觉 - 语言模型的 Cascade-CLIP 方法，在零样本语义分割任务中通过引入一系列独立解码器，以级联方式将多层次的视觉特征与文本嵌入对齐，取得了优秀的性能。

Jun, 2024

CALIP: 零参数关注下的零样本增强 CLIP

本文提出了一种名为 CALIP 的方法，通过一个无需参数的关注模块，在不增加额外的训练开销和数据需求的情况下提高 Contrastive Language-Image Pre-training 的零样本性能。

Sep, 2022

CLIP 与优质字幕：强大的视觉任务预训练

简要概述：通过改进图像 - 文本数据集中标题的质量，有助于改善 CLIP 模型的视觉表示质量，并在密集预测视觉任务中取得显著的性能提升。

May, 2024

RISCLIP: 使用 CLIP 的参考图像分割框架

本文提出了一种基于 Contrastive Language-Image Pretraining (CLIP) 的新框架，通过 Fusion Adapters 和 Backbone Adapters 的方式对 RIS 进行有效的调整，实现了在三个重要的 RIS benchmarks 上的新的最高水平，且无需额外的预训练和数据准备。

Jun, 2023