LAEO-Net: 重新审视视频中的人们互相注视
本文提出了一种新的基于软注意力的模型,即端到端比较注意网络 (CAN),专门用于人员重新识别任务,该模型能够在几个瞥见后选择性地关注人的不同部位,学会哪些图像部位与识别相关,并自动整合不同部位的信息来确定两个图像是否属于同一个人,并在三个基准人员重新识别数据集上实现了最优性能。
Jun, 2016
该报告介绍了我们团队在 CVPR2024 的 Ego4D Looking At Me 挑战中的 'PCIE_LAM' 解决方案。我们的方案 InternLSTM 由 InternVL 图像编码器和 Bi-LSTM 网络组成,通过提取空间和时间特征来准确确定场景中的人是否面向佩戴摄像头的摄像机。鉴于此任务中存在的面部图像模糊问题,我们采用了 Gaze Smoothing 滤波器来消除噪音或波动,并在挑战中获得了第一名,mAP 为 0.81,准确率为 0.93。代码可在链接中访问。
Jun, 2024
本研究针对自然场景下获取三维凝视注释的挑战进行了探讨,提出了一种基于 LAEO 标签的弱监督凝视估计算法,该算法通过训练算法和损失函数实现了可行的三维凝视监督,结果表明,这种方法对于半监督凝视估计的准确性和跨域泛化的改进方面取得了显着的进展。
May, 2021
本研究探讨是否可以利用人眼注视追踪信息定义注意力机制以提高视频字幕生成任务的性能,通过提出一种名为 GEAN 的视频字幕模型,并采用人眼注视追踪数据来提供生成句子的时空注意力,以及对语言相似性指标和人工智能通过 Amazon mechanical Turk 进行的评估,证明了由人眼追踪数据指导的空间注意力确实改善了多个字幕方法的性能,并展示了该方法在 VAS 数据集和标准数据集(如 LSMDC 和 Hollywood2)中实现了领先的性能,成为最先进的视频字幕生成方法。
Jul, 2017
本研究提出了一种基于卷积神经网络的深层视听关注网络(VAANet)来进行用户生成视频中的情感识别,其结果在两个不易的视频情绪识别数据集上均优于现有的方法。
Feb, 2020
该研究旨在使用头戴式相机捕获的视频,基于人的动作和视线方向,开发一种新的深度学习模型,能够在 First Person Vision(第一人称视角)环境下进行准确的行动识别,并在 EGTEA Gaze+ 数据集上超越了当前技术水平。
May, 2020
提出了一种利用视频数据集和图像相结合的方法,通过学习用户注视与眼部外形之间的联系来提高眼动追踪的精度,实现基于网络摄像头的高准确度屏幕眼动追踪,不需要标记的数据并且通过视觉刺激和眼部图像信息融合可以达到监督式个性化的效果。
Jul, 2020
本文综述了在视频中自动识别人际互动的主要挑战,研究现状,以及基于深度学习和卷积神经网络方面的最新、有前途的工作,最终概述了克服目前技术限制以分析和理解社会人类行为的方向。
Jul, 2018
该论文提出了一种基于多图像区域(头部、身体等)的简单的人员识别框架,以应对社交媒体照片中的人员识别问题,并针对训练和测试样本之间的时间和外观差距提出了新的识别方法,该方法在 PIPA 基准上取得了最先进的结果,对不同的特征进行了深入的分析。
Oct, 2017