CLIP-Gaze：基于视觉语言模型的通用注视估计

AAAIMar, 2024

CLIP-Gaze：基于视觉语言模型的通用注视估计

CLIP-Gaze: Towards General Gaze Estimation via Visual-Linguistic Model

Pengwei Yin, Guanzhong Zeng, Jingjing Wang, Di Xie

TL;DR通过使用预训练的视觉语言模型来提高视线估计的泛化能力，本研究提出了一种名为 CLIP-Gaze 的新型框架。该框架通过在语言描述中构建视线相关特征并将其与视线无关特征相区分，采用个性化上下文优化方法进行文本提示调整，并利用视线样本之间的关系改进视线估计模型的泛化能力。对四个跨领域评估结果表明，CLIP-Gaze 方法的性能优于现有方法。

Abstract

gaze estimation methods often experience significant performance degradation when evaluated across different domains, due to the domain gap between the testing and training data. Existing methods try to address t

gaze estimation domain gap clip-gaze vision-language model cross-domain evaluations

发现论文，激发创造

GazeCLIP: 通过文本指导提升凝视估计能力

通过设计文本眼部协同学习框架 GazeCLIP，结合视觉注视方向的文本信号和 Contrastive Language-Image Pre-training (CLIP) 模型的优点，实现了先进的视觉注视估计准确性，并在三个具有挑战性的数据集上展示了其在性能方面的优势。

Dec, 2023

概念引导下的提示学习进行视觉 - 语言模型泛化

通过概念引导提示学习的方式，CPL 方法显著提高了通用化性能。

Jan, 2024

ReCLIP：使用源域自适应提炼对比语言图像预训练

通过提出 ReCLIP 方法，第一个无需源数据或目标标记数据的视觉 - 语言模型领域自适应方法，该方法使用伪标签进行交叉模态自训练以减小领域间差异和错位对模型性能的影响，在 22 个图像分类基准测试中将 CLIP 的平均错误率从 30.17% 降低到 25.06%。

Aug, 2023

Multi-CLIP：针对 3D 场景中问答任务的对比视觉语言预训练

本研究提出一种名为 MULTI-CLIP 的 3D 预训练视觉语言模型，可有效提高现有 3D 视觉问答任务的表现并构建出具有良好结构的 3D 场景特征空间。

Jun, 2023

VT-CLIP: 使用视觉引导文本增强视觉语言模型

提出一种名为 VT-CLIP 的方法来增强 CLIP 模型，它通过可视化引导文本，使文本的特征更适应图片，在多分类任务中表现出很高的效果。

Dec, 2021

CLIP 引导的视觉 - 语言预训练用于 3D 场景问答

本文介绍了一种新颖的 3D 预训练视觉 - 语言方法，将来自 2D 图像的语言知识和视觉概念应用于 3D 世界的理解，使用流行的 CLIP 模型代入编码的 3D 场景特征以评估其 3D 世界推理能力，并在 3D 视觉问答下游任务中证明了该方法的优越性和可解释性。

Apr, 2023

探索视觉语言模型的零样本能力以提高凝视跟踪

通过调查视觉语言模型（VLMs）的零样本能力，探索提取各种上下文线索以提高凝视跟踪性能的可能性。

Jun, 2024

CLIP 能为视觉语言任务带来多大的效益？

研究了在视觉与语言任务中使用大规模预训练模型 CLIP 作为视觉编码器以及其优势，通过在特定任务中微调和在预训练模型中与 V&L 相结合传递到下游任务，CLIP 显著优于现有的视觉编码器，并在多种视觉与语言任务中取得竞争或更好的结果，同时取得了 Visual Question Answering，Visual Entailment 和 V&L Navigation 等任务的新高峰。

Jul, 2021

一句话描绘千张画面：通过语言指导提炼 CLIP 进行领域泛化

通过引入视觉 - 语言模型进行知识蒸馏，本文提出了一种新的域泛化方法，称为 RISE (Regularized Invariance with Semantic Embeddings)，并通过在多个基准数据集上的实验证明其在域泛化方面的优越性。

Sep, 2023

CLIP-Adapter: 特征适配器提升视觉语言模型

本文提出一种新的视觉语言模型 fine-tuning 方式 ——CLIP-Adapter，通过在原训练模型上加入新特征层并进行残差式混合来实现，在各种视觉分类任务中表现优异，优于 context optimization

Oct, 2021