EgoTaskQA：理解自我中心视频中的人类任务

Oct, 2022

EgoTaskQA：理解自我中心视频中的人类任务

EgoTaskQA: Understanding Human Tasks in Egocentric Videos

Baoxiong Jia, Ting Lei, Song-Chun Zhu, Siyuan Huang

TL;DR通过问题回答对现实生活中的个人行为视频进行对话式任务理解，以制定 EgoTaskQA 基准，并在其中对最先进的视频推理模型进行评估，以此引导视觉界朝着面向目标的视频理解和推理的方向前进。

Abstract

Understanding human tasks through video observations is an essential capability of intelligent agents. The challenges of such capability lie in the difficulty of generating a detailed understanding of situated ac

video observations intelligent agents task understanding egotaskqa benchmark video reasoning models

发现论文，激发创造

自我中心视频任务翻译

穿戴式摄像头的全息自我视角下，手 - 物体操纵、空间导航和人 - 人交互等视频理解任务是相互关联的，EgoTask Translation (EgoT2) 提出了一种统一的解决方法，采用多任务学习的翻转设计，通过优化多个模型，实现在所有任务上的改进性能。在 Ego4D 视频挑战中，实验表明其优于现有 transfer 范式，并在其中四项挑战中取得了最佳成绩。

Dec, 2022

背包里装满技能：多角度任务视角下的自我中心视频理解

为了将对视频流的整体感知有效地传递给智能机器，我们通过学习将概念关联和来自不同任务的抽象知识协同利用来学习新技能，提出了一种统一的视频理解方法，它结合了人类行为的共享时间建模和最小开销，支持多个下游任务及在学习新技能时的合作，并通过四个 Ego4D 基准测试表明了我们方法的有效性和高效性。

Mar, 2024

长时间自视角视频中的基于场景的问答

本文旨在解决在长时间自我中心视频中的开放式问题回答，提出一种综合模型来减少错误传播、利用大语言模型进行高效可扩展的数据合成，并引入一个闭合式问题回答任务以管理答案的模糊性。实验证明了我们的方法的有效性，并在 QAEgo4D 和 Ego4D-NLQ 基准测试中达到了最先进的性能。

Dec, 2023

利用多任务学习提升自我中心行为识别

本文提出了一种使用多任务学习的方法，通过并行训练网络来提高动作识别的准确率，并同时实现手部和凝视估计的辅助任务。在多个数据集上的实验证明，该方法在动作识别上的性能明显优于单任务学习模型，并可以准确预测手部和凝视位置。

Sep, 2019

VideoNavQA: 填补视觉与行为问答之间的差距

本文提出了一种基于身体的问答任务，即 Embodied Question Answering，通过放置一个 agent 在 3D 环境中，学习结合场景理解、导航和语言理解等能力，实现在视觉世界中进行复杂推理。为了探索 EQA 系列任务的可行性，我们构建了 VideoNavQA 数据集，评估了各种模型在此数据集上的表现。

Aug, 2019

2022 年 Ego4D 挑战赛中心自我视角视频任务翻译

本技术报告介绍了 Ego4D 挑战中对一组自我中心视频任务的关系进行探索的 EgoTask 翻译方法。我们提出利用已开发用于其他相关任务的现有模型，并设计一个任务翻译器，学习将辅助任务特征 “翻译” 为主要任务，以提高其性能。在没有对基线架构进行任何修改的情况下，我们提出的方法在两个 Ego4D 挑战赛中取得了竞争性的表现，在 “和我说话” 挑战中排名第一，在 PNR 关键帧定位挑战中排名第三。

Feb, 2023

如何理解视频中的人类行为所需的行动？

这篇论文分析了当前视频中人类活动理解的研究现状和未来方向，探讨了数据集，评估指标，算法和未来发展方向，并提出需要掌握的信息以实现活动理解的重大进展。

Aug, 2017

AssistQ: 以能力为中心、问题驱动的自我中心助手任务完成

本文定义了一个新的任务，称为 “面向 affordance 的问题驱动任务完成”，提出了一个名为 AssistQ 的数据集，并开发了一个名为 Q2A 的模型来解决该任务，并在 AssistQ 数据集上对其进行验证。结果表明，该模型明显优于几个 VQA 相关的基线，但仍有很大的提升空间。我们期望我们的任务和数据集能够推进自我中心 AI 助理的发展。

Mar, 2022

情节记忆问答

通过 Episodic Memory Question Answering (EMQA) 任务以及一系列数据集和模型的介绍，本文阐述了在面向家居环境下，使用智能语音助手等 AR 设备进行信息沟通的场景中，利用换人的机器学习算法，更好地实现 AI 视觉辅助的目标。

May, 2022

检索增强的视觉第一人称视频字幕生成

从第一人称视角的视频中理解人类行为面临着重要挑战。本文提出了 EgoInstructor 模型，它能够自动检索语义相关的第三人称指导视频，以增强第一人称视频的视频字幕生成。通过对不同规模的第一人称和第三人称数据集进行自动配对来训练跨视角检索模块，并通过新颖的 EgoExoNCE 损失函数将第一人称和第三人称视频特征与描述相似行为的共享文本特征对齐。通过大量实验证明，跨视角检索模块在七个基准上表现出优越性能。借助第三人称视频作为参考，EgoInstructor 在第一人称视频字幕生成方面展现了显著的改进。

Jan, 2024