从自我中心视频中识别对话伙伴

CVPRJun, 2024

Identification of Conversation Partners from Egocentric Video

Tobias Dorszewski, Søren A. Fuglsang, Jens Hjortkjær

TL;DR基于现有的计算机视觉数据集和任务，本研究侧重于从自我的视角识别会话伙伴，并描述了一个合适的数据集，该数据集包含了 69 小时的多样化多对话场景的自我的视频，对每个个体分配了一个或多个对话伙伴，为我们的计算机视觉任务提供了标签。通过这个数据集，我们可以开发和评估用于识别会话伙伴和相关方法的算法。该研究为自我的视频分析在社交环境中的令人兴奋的进展做出贡献。

Abstract

communicating in noisy, multi-talker environments is challenging, especially for people with hearing impairments. →

communicating noisy multi-talker environments egocentric video conversation partners

发现论文，激发创造

语音视觉对话图：从自我中心视角到他人中心视角

我们提出了一个统一的多模态、多任务框架 —— 音频视觉对话关注（Av-CONV），用于联合预测第一人称视角下的摄像机佩戴者及视频中所有其他社交伙伴的对话行为，我们通过自注意机制定制化建模了跨时间、跨主体和跨模态的表征。通过在具有多说话者和多对话情景的具有挑战性的第一人称视角视频数据集上的实验证明了我们方法的优越性能，并进行了详细的消融研究来评估模型中每个组件的贡献。

Dec, 2023

使用主观真实感全方位相机的视觉障碍人士视频问答

针对视觉障碍者每天面临的挑战，如信息获取的限制、导航困难和社交互动的障碍，本文引入了一种新颖的视觉问答数据集。我们的数据集相对于以往的数据集具有两个重要的改进：首先，通过使用全景佩戴式摄像头拍摄的视频，观察整个环境，与以前的静态图像为中心的数据集不同；其次，与以往集中在单一挑战上的数据集不同，我们的数据集通过创新的视觉问答框架同时解决了多个现实生活中的障碍。我们使用各种先进的视频问答方法和多样化的度量验证了我们的数据集。结果表明，虽然取得了一些进展，AI 辅助服务对于视觉障碍者来说仍然没有达到满意的性能水平。此外，我们的评估突出了 360 度摄像头拍摄的视频中的自我运动特点和各种情境的独特特征。

May, 2024

基于时间连接序列的自我中心视频描述

本研究旨在利用一种新的方法，即多态输入的注意力循环网络，来描述自我中心影像序列的故事情节，并发布了第一个自我中心影像序列描述数据集，该方法的表现优于传统的注意力编码器 - 解码器方法。

Apr, 2017

检索增强的视觉第一人称视频字幕生成

从第一人称视角的视频中理解人类行为面临着重要挑战。本文提出了 EgoInstructor 模型，它能够自动检索语义相关的第三人称指导视频，以增强第一人称视频的视频字幕生成。通过对不同规模的第一人称和第三人称数据集进行自动配对来训练跨视角检索模块，并通过新颖的 EgoExoNCE 损失函数将第一人称和第三人称视频特征与描述相似行为的共享文本特征对齐。通过大量实验证明，跨视角检索模块在七个基准上表现出优越性能。借助第三人称视频作为参考，EgoInstructor 在第一人称视频字幕生成方面展现了显著的改进。

Jan, 2024

EasyCom：噪声环境下支持易于交流算法的增强现实数据集

本文发现，缺少可用于训练和测试信号处理和机器学习算法的具有代表性的数据集，介绍并放出了一个包含超过 5 小时多模态数据的数据集，以便建立多模态 AR 方案以减少鸡尾酒会效应。

Jul, 2021

Ego-Exo：将第三人称视频的视觉表示转移到第一人称视频

本文提出使用大规模第三人称视频数据集进行预训练的以自我为中心的视频模型方法，通过在第三人称视频中发现预测自我特定属性的潜在信号，并将其作为知识蒸馏损失融入模型预训练中，在精细调节进行自我中心的活动识别时表现出最佳表现，取得 Charades-Ego 和 EPIC-Kitchens-100 的最新成果。

Apr, 2021

自我视角在视角不变动作识别中的作用

本文主要研究如何利用佩戴式摄像头所获得的数据进行行为识别。研究发现，使用卷积神经网络进行自我视角识别可以开辟行为识别领域的新研究视角。

Jun, 2019

Exo2EgoDVC：使用网络教育视频进行以自我为中心的程序性活动的密集视频标题生成

提出了一种用于稠密视频字幕的跨视图知识传递的新型基准，从具有外视图的网页教学视频调整模型以适应内视图领域。

Nov, 2023

细粒度自我中心手部 - 物体分割：数据集、模型和应用

本文提供了一种具有像素级细分标签的 egocentric 图像数据集，其中包含 11,243 个日常活动中与对象相互作用时人手和对象的标签数据。我们引入了上下文感知的组合数据增强技术以适应分布外的 YouTube egocentric 视频，并展示了我们坚韧的手物分割模型和数据集可以作为基础工具，促进或实现手势状态分类、视频活动识别、手物交互的 3D 网格重建，以及对 egocentric 视频中的手物前景进行视频修复。

Aug, 2022

自我中心视频 - 语言预训练

本文提出了一种新的视频语言预训练（Video-Language Pretraining）方法 ——Egocentric VLP，通过利用新发布的 Ego4D 数据集，分别从 EgoClip，EgoNCE 和 EgoMCQ 三个方向进行探索，最终成功在五个自我中心任务上实现了强大的表现。

Jun, 2022