GazeCLIP: 通过文本指导提升凝视估计能力

Dec, 2023

GazeCLIP: 通过文本指导提升凝视估计能力

GazeCLIP: Towards Enhancing Gaze Estimation via Text Guidance

Jun Wang, Hao Ruan, Mingjie Wang, Chuanghui Zhang, Chunhua Li...

TL;DR通过设计文本眼部协同学习框架 GazeCLIP，结合视觉注视方向的文本信号和 Contrastive Language-Image Pre-training (CLIP) 模型的优点，实现了先进的视觉注视估计准确性，并在三个具有挑战性的数据集上展示了其在性能方面的优势。

Abstract

Over the past decade, visual gaze estimation has garnered growing attention within the research community, thanks to its wide-ranging application scenarios. While existing estimation approaches have achieved remarkable success in enhancing prediction accuracy, they primarily infer gaze

visual gaze estimation text guidance visual-language collaboration clip model gazeclip

发现论文，激发创造

CLIP-Gaze：基于视觉语言模型的通用注视估计

通过使用预训练的视觉语言模型来提高视线估计的泛化能力，本研究提出了一种名为 CLIP-Gaze 的新型框架。该框架通过在语言描述中构建视线相关特征并将其与视线无关特征相区分，采用个性化上下文优化方法进行文本提示调整，并利用视线样本之间的关系改进视线估计模型的泛化能力。对四个跨领域评估结果表明，CLIP-Gaze 方法的性能优于现有方法。

Mar, 2024

VT-CLIP: 使用视觉引导文本增强视觉语言模型

提出一种名为 VT-CLIP 的方法来增强 CLIP 模型，它通过可视化引导文本，使文本的特征更适应图片，在多分类任务中表现出很高的效果。

Dec, 2021

使用 CLIP 的半监督图像字幕生成

本文提出了一种利用 CLIP 模型进行半监督图像标注的方法，包括图像编码器、映射网络和语言模型，通过对比生成的标题和实际标题，并使用未标记的图像进行二次训练，得到了与完整数据集训练的业界最先进模型相比可比的性能，且标题更加独特、信息量更大，并且符合人类的偏好。

Jun, 2023

增强图像检索：基于 CLIP 模型的照片搜索的全面研究

CLIP 模型是基于文本查询的图像检索的重要进展，通过在大规模数据集上进行训练获得显著的泛化能力，实现了图像和文本的跨模态理解，促进了自然语言理解和计算机视觉的无缝集成，为多媒体应用中的信息检索提供了强大的工具。

Jan, 2024

SpeechCLIP：将语音与预训练的视觉和语言模型相融合

本文提出了一种名为 SpeechCLIP 的新框架，通过图像将语音和文本结合起来，从而改善语音模型的性能，无需直接从转录中进行监督。SpeechCLIP 使用先进的预训练 HuBERT 和 CLIP 模型，并通过配对的图像和口头字幕进行对齐，实现了零样本语音 - 文本检索和语音中关联关键字的提取。

Oct, 2022

用 GPT-4 增强 CLIP：利用视觉描述作为提示

我们展示了如何使用 GPT-4 生成视觉描述性文本，并说明如何将其用于适应 CLIP 进行下游任务。与 CLIP 的默认提示相比，在专门的细粒度数据集上，我们在 0-shot 传输准确性方面取得了显著的改进。我们还设计了一个简单的 few-shot 适配器，学习选择最佳的句子来构建具有优越性能的可推广分类器。

Jul, 2023

概念引导下的提示学习进行视觉 - 语言模型泛化

通过概念引导提示学习的方式，CPL 方法显著提高了通用化性能。

Jan, 2024

CLIP-Hand3D：基于上下文感知的 3D 手势姿态估计的利用

提出了一种称为 CLIP-Hand3D 的新颖的 3D 手势估计器，能够成功地将文本提示与不规则的详细姿势分布连接起来，并通过对姿势标签进行编码，形成相应的文本提示，并从中检索 3D 空间中的 21 个手关节，并对它们的空间分布进行编码以形成姿势感知特征，随后通过构建一个粗到细的网格回归器来最大化姿势 - 文本特征对的语义一致性，实验结果表明该模型相比使用相似规模骨干的方法，在几个公开手部基准测试中实现了更快的推断速度和最先进的性能。

Sep, 2023

DialCLIP: 增强 CLIP 作为多模态对话检索器

提出了一种名为 DialCLIP 的参数高效的提示调整方法，用于多模态对话检索，通过仅调整总参数的 0.04％实现了在两个广泛认可的基准数据集上的最新性能，突出了该方法的功效和效率，强调其推动多模态对话检索领域发展的潜力。

Jan, 2024

基于文本数据的图像标题生成与交互提示

TIPCap 是一种基于文本数据的交互提示的图像标题生成方法，通过减少对配对数据的依赖性、构建驱动多变量高斯分布的映射模块以缓解模态差异，并在生成标题之前引入可选的提示信息，优于其他弱监督或无监督的图像标题生成方法，并在 MS-COCO 和 Flickr30K 等常用数据集上达到了最新的最优性能。

Mar, 2024