探索视觉语言模型的零样本能力以提高凝视跟踪

CVPRJun, 2024

探索视觉语言模型的零样本能力以提高凝视跟踪

Exploring the Zero-Shot Capabilities of Vision-Language Models for Improving Gaze Following

Anshul Gupta, Pierre Vuillecard, Arya Farkhondeh, Jean-Marc Odobez

TL;DR通过调查视觉语言模型（VLMs）的零样本能力，探索提取各种上下文线索以提高凝视跟踪性能的可能性。

Abstract

contextual cues related to a person's pose and interactions with objects and other people in the scene can provide valuable information for gaze following. While existing methods have focused on dedicated cue ext

contextual cues gaze following vision-language models zero-shot capabilities state of the art model

发现论文，激发创造

面向视觉与语言模型的多模态上下文学习

通过对一些最先进的 VLM（Visual Language Model）进行分析，我们发现它们在执行 ICL（In-Context Learning）指令时存在一定的不足。为了验证这个猜想，我们提出了一种简单但令人惊讶地有效的策略，通过扩展一个常见的 VLM 对齐框架，实现 ICL 支持、方法和课程设置。我们探讨、分析并提供了对有效数据混合的见解，从而显著提升了 21.03% 的 ICL 表现（平均 11.3%），超过了最强 VLM 基线和多种 ICL 基准，并为 VLM 的 ICL 评估贡献了新的基准，并讨论了它们相对于现有技术的优势。

Mar, 2024

视觉语言模型的零样本识别挑战：粒度和正确性

本文研究视觉与语言模型在零样本视觉识别任务中的应用难点，并针对对比视觉 - 语言模型（CLIP）等模型进行探讨。研究表明，模型更擅长识别细粒度概念，并且相似度评分并不能严格反映相应文本描述的准确性。作者提出了评价方法，以评估其学习性偏差问题，并发现相似的模糊描述很容易被模型混淆识别。本研究凸显了在开放环境下使用视觉与语言模型的挑战，并为进一步提高其零样本能力提出了方向建议。

Jun, 2023

Voila-A: 用户注视注意力对齐视觉语言模型

本文介绍了一种使用视线信息作为人类关注的代理来指导视觉 - 语言模型（VLMs）的方法，提出了一种名为 Voila-A 的新方法，通过目光对齐增强了这些模型在现实应用中的可解释性和效果，实验结果表明 Voila-A 显著优于几个基准模型，为更直观、以用户为中心的 VLMs 以及广泛的人工智能人机交互铺平了道路。

Dec, 2023

CLIP-Gaze：基于视觉语言模型的通用注视估计

通过使用预训练的视觉语言模型来提高视线估计的泛化能力，本研究提出了一种名为 CLIP-Gaze 的新型框架。该框架通过在语言描述中构建视线相关特征并将其与视线无关特征相区分，采用个性化上下文优化方法进行文本提示调整，并利用视线样本之间的关系改进视线估计模型的泛化能力。对四个跨领域评估结果表明，CLIP-Gaze 方法的性能优于现有方法。

Mar, 2024

视觉语言模型是强化学习的零样本奖励模型

使用预训练的视觉语言模型作为无样本奖励模型以指定任务，通过单个句子文本提示训练 MuJoCo 仿真人完成复杂任务，表明未来的视觉语言模型将在广泛的强化学习应用中成为更加有用的奖励模型。

Oct, 2023

通过使用文本描述使 VLMs 适应性更好的零射分类改进

通过使用大型语言模型（LLMs）生成的类别描述和丰富的细粒度图像分类数据集，我们提出了一种方法来改善视觉 - 语言模型（VLMs）在细粒度领域的零样本分类性能。通过在训练过程中利用图像 - 文本监督，我们的方法在鸟类和花卉等新颖类别的零样本分类准确度上平均提高了 4-5％。地理先验也被证明对于改善零样本分类同样有效，与视觉特征互补。我们计划发布包含 7 个数据集的基准测试，以促进未来的零样本识别研究。

Jan, 2024

理解和优化视觉 - 语言模型中的上下文学习

通过对视觉 - 语言模型的大规模（LLMs）模型进行背景学习（ICL），本研究发现在 VLMs 中，ICL 主要受到演示的文本信息的驱动，视觉信息对 ICL 性能的影响较小。鉴于该发现，通过分析模型信息流和不同 ICL 设置下的模型内部状态，我们提出了一个简单而有效的方法 MMICES（Mixed Modality In-Context Example Selection），它在选择演示时考虑了视觉和语言两个模态，并显示出更好的 ICL 性能。通过大量实验证实了我们的发现，对 VLMs 的 ICL 性能的理解和改进进行了支持。

Nov, 2023

语言模型作为视觉 - 语言模型的黑盒优化器

通过自然语言提示，我们提出了一种新颖的视觉语言模型微调方法，利用基于对话的大型语言模型作为黑盒优化器，在少样本图像分类任务中通过对话过程中的文本反馈，自动搜索最佳文本提示，从而避免了对模型参数、特征嵌入或输出标签的访问。

Sep, 2023

Videoprompter: 零 - shot 视频理解的一组基础模型

本文提出了一种将预训练的判别性视觉 - 语言模型与预训练的生成性视频 - 文本和文本 - 文本模型相结合的框架，在零样本设置中引入了两个关键改进，提高了视觉 - 语言模型的性能，并在视频理解方面展示了一致的改进。

Oct, 2023

细粒度视觉提示

本文介绍了一种新的零样本学习框架，Fine-Grained Visual Prompting（FGVP），通过使用精确的掩码注释来改进视觉提示设计，并展示了在不同的基准测试上均优于传统方法的性能表现。

Jun, 2023