扩散优化的半监督凝视跟踪 VQA 注释

Jun, 2024

扩散优化的半监督凝视跟踪 VQA 注释

Diffusion-Refined VQA Annotations for Semi-Supervised Gaze Following

Qiaomu Miao, Alexandros Graikos, Jingwei Zhang, Sounak Mondal, Minh Hoai...

TL;DR通过引入两个新的先验条件，我们提出了首个半监督的凝视追踪方法。我们利用大型预训练的视觉问答模型计算 Grad-CAM 热图，并通过修正扩散模型中的反向采样过程来改进热图。我们的方法在 GazeFollow 图像数据集上胜过简单的伪标注生成基线，并将注释需求降低了 50%。在 VideoAttentionTarget 数据集上，我们的方法也取得了最好的表现。

Abstract

Training gaze following models requires a large number of images with gaze target coordinates annotated by human annotators, which is a laborious and inherently ambiguous process. We propose the first semi-supervised me

gaze following semi-supervised method prior refinement visual question answering pseudo-annotation strategy

发现论文，激发创造

WeaQA: 通过标题的弱监督使视觉问答更准确

研究如何使用图像和相关描述文本生成合成的 Q-A 对集合，而无需人工标注，同时利用空间金字塔图像块作为一种简单而有效的 VQA 模型替代方案。

Dec, 2020

引导式关注推理网络：告诉我该看哪里

利用弱监督学习和注意力图，我们提出了一种新的建模方法，使得注意力图成为端到端训练的自然组成部分，并通过直接从网络本身探索监督来直接在这些图上提供自我指导，从而成功地解决了以前方法中的缺点，并在语义分割任务上优于现有技术。

Feb, 2018

基于 VQA 的视觉基础方法的负面案例分析

为解决当前 VQA 方法依赖于数据集偏见和统计相关性的问题，提出了利用视觉提示进行 VQA 模型性能优化的方法，但实现的改进并不是由于视觉提示的影响，而是正则化效应，为此提出了一种不需要外部数据注释的简单正则化方案。

Apr, 2020

探究视觉问答中人类注意力监督

本研究主要针对如何将注意力监督应用于基于 Attention 机制的视觉问答任务中，提出人类注意力网络（HAN）来生成类似于人类的注意力图，并将其应用于 VQA v2.0 数据集中。实验结果表明，该方法能够产生更准确的注意力机制和更好的性能。

Sep, 2017

GazeMoDiff：基于凝视引导的扩散模型用于随机人体运动预测

人类动作预测是虚拟现实（VR）应用中的重要问题，本论文提出了一种新的注视引导去噪扩散模型（GazeMoDiff），通过学习眼球注视和人体运动之间的时空相关性，生成逼真的人体运动，实验证明本方法在平均位移误差上超过了现有方法。

Dec, 2023

信不信由你，我们知道你在看什么！

本文提出了一种基于人类凝视追踪思路的两阶段解决方案，集成了神经网络和数据集，有效地预测并追踪目标人物的目光方向，且经过大量实验证明，该方案相对于现有解决方案有明显优势。

Jul, 2019

Explanation vs Attention: 一种用于 VQA 注重力获取的双人博弈

使用对抗训练作为监督学习来提高注意力映射，改善视觉问答任务的表现，同时与其他学习分布的方法相比，发现对抗损失函数表现更好。

Nov, 2019

不要仅仅猜测；观察并回答：克服视觉问答的先验知识

本文提出了一个新的 VQA 模型，其中通过引入不同的先验分布来防止模型仅仅依赖训练数据中的先验信息。该模型是 GVQA，与现有 VQA 模型相比，它具有更好的泛化性能和可解释性能。

Dec, 2017

基于注意力监控挖掘的视觉驻留解释性视觉问答

本文展示了使用可用的区域描述和物体注释自动获取定位监督来有效地训练具有基于解释性的可视化问题回答 (VQA) 模型，并呈现了我们的模型的训练效果，表明其生成的视觉定位效果与手动注释的效果更接近，同时实现了最先进的 VQA 准确性。

Aug, 2018

利用人类注视数据监督视频字幕生成神经注意模型

本研究探讨是否可以利用人眼注视追踪信息定义注意力机制以提高视频字幕生成任务的性能，通过提出一种名为 GEAN 的视频字幕模型，并采用人眼注视追踪数据来提供生成句子的时空注意力，以及对语言相似性指标和人工智能通过 Amazon mechanical Turk 进行的评估，证明了由人眼追踪数据指导的空间注意力确实改善了多个字幕方法的性能，并展示了该方法在 VAS 数据集和标准数据集（如 LSMDC 和 Hollywood2）中实现了领先的性能，成为最先进的视频字幕生成方法。

Jul, 2017