LAEO-Net: 重新审视视频中的人们互相注视

CVPRJun, 2019

LAEO-Net: 重新审视视频中的人们互相注视

LAEO-Net: revisiting people Looking At Each Other in videos

Manuel J. Marin-Jimenez, Vicky Kalogeiton, Pablo Medina-Suarez, Andrew Zisserman

TL;DR本文基于 LAEO-Net 提出了一种新的深度 CNN 模型用于检测人们的相互凝视，将空间时间轨迹作为输入，由三个分支构成，分别针对每个角色的追踪头部和相对位置。通过实验证明该模型在分析人们的社交关系中可以成功地确定两个人是否进行相互注视以及注视的时间窗口，达到了最先进的技术水平。

Abstract

Capturing the `mutual gaze' of people is essential for understanding and interpreting the social interactions between them. To this end, this paper addresses the problem of detecting people Looking At Each Other (LAEO) in video sequences. For this purpose, we propose LAEO-Net, a new

mutual gaze detecting laeo deep cnn spatio-temporal tracks social network analysis

发现论文，激发创造

端到端比较型注意力网络用于人员再识别

本文提出了一种新的基于软注意力的模型，即端到端比较注意网络 (CAN)，专门用于人员重新识别任务，该模型能够在几个瞥见后选择性地关注人的不同部位，学会哪些图像部位与识别相关，并自动整合不同部位的信息来确定两个图像是否属于同一个人，并在三个基准人员重新识别数据集上实现了最优性能。

Jun, 2016

Ego4D Looking At Me Challenge 的 PCIE_LAM 解决方案

该报告介绍了我们团队在 CVPR2024 的 Ego4D Looking At Me 挑战中的 'PCIE_LAM' 解决方案。我们的方案 InternLSTM 由 InternVL 图像编码器和 Bi-LSTM 网络组成，通过提取空间和时间特征来准确确定场景中的人是否面向佩戴摄像头的摄像机。鉴于此任务中存在的面部图像模糊问题，我们采用了 Gaze Smoothing 滤波器来消除噪音或波动，并在挑战中获得了第一名，mAP 为 0.81，准确率为 0.93。代码可在链接中访问。

Jun, 2024

在视频中检测出被关注的视觉目标

本研究解决了视频中检测注意目标的问题，通过机器学习模型和新的数据集可以有效推断动态的注视点，并在社交注视行为分类任务中取得了最佳表现。

Mar, 2020

弱监督的物理无约束凝视估计

本研究针对自然场景下获取三维凝视注释的挑战进行了探讨，提出了一种基于 LAEO 标签的弱监督凝视估计算法，该算法通过训练算法和损失函数实现了可行的三维凝视监督，结果表明，这种方法对于半监督凝视估计的准确性和跨域泛化的改进方面取得了显着的进展。

May, 2021

利用人类注视数据监督视频字幕生成神经注意模型

本研究探讨是否可以利用人眼注视追踪信息定义注意力机制以提高视频字幕生成任务的性能，通过提出一种名为 GEAN 的视频字幕模型，并采用人眼注视追踪数据来提供生成句子的时空注意力，以及对语言相似性指标和人工智能通过 Amazon mechanical Turk 进行的评估，证明了由人眼追踪数据指导的空间注意力确实改善了多个字幕方法的性能，并展示了该方法在 VAS 数据集和标准数据集（如 LSMDC 和 Hollywood2）中实现了领先的性能，成为最先进的视频字幕生成方法。

Jul, 2017

用户生成视频情感识别的端到端视听注意力网络

本研究提出了一种基于卷积神经网络的深层视听关注网络（VAANet）来进行用户生成视频中的情感识别，其结果在两个不易的视频情绪识别数据集上均优于现有的方法。

Feb, 2020

观者视角下的注视和行为：第一人称视频

该研究旨在使用头戴式相机捕获的视频，基于人的动作和视线方向，开发一种新的深度学习模型，能够在 First Person Vision（第一人称视角）环境下进行准确的行动识别，并在 EGTEA Gaze+ 数据集上超越了当前技术水平。

May, 2020

基于视频的端到端眼动追踪技术

提出了一种利用视频数据集和图像相结合的方法，通过学习用户注视与眼部外形之间的联系来提高眼动追踪的精度，实现基于网络摄像头的高准确度屏幕眼动追踪，不需要标记的数据并且通过视觉刺激和眼部图像信息融合可以达到监督式个性化的效果。

Jul, 2020

分析人际互动：一项调查

本文综述了在视频中自动识别人际互动的主要挑战，研究现状，以及基于深度学习和卷积神经网络方面的最新、有前途的工作，最终概述了克服目前技术限制以分析和理解社会人类行为的方向。

Jul, 2018

个人照片集中的人物识别

该论文提出了一种基于多图像区域（头部、身体等）的简单的人员识别框架，以应对社交媒体照片中的人员识别问题，并针对训练和测试样本之间的时间和外观差距提出了新的识别方法，该方法在 PIPA 基准上取得了最先进的结果，对不同的特征进行了深入的分析。

Oct, 2017