从自我中心视频中识别对话伙伴
我们提出了一个统一的多模态、多任务框架 —— 音频视觉对话关注(Av-CONV),用于联合预测第一人称视角下的摄像机佩戴者及视频中所有其他社交伙伴的对话行为,我们通过自注意机制定制化建模了跨时间、跨主体和跨模态的表征。通过在具有多说话者和多对话情景的具有挑战性的第一人称视角视频数据集上的实验证明了我们方法的优越性能,并进行了详细的消融研究来评估模型中每个组件的贡献。
Dec, 2023
针对视觉障碍者每天面临的挑战,如信息获取的限制、导航困难和社交互动的障碍,本文引入了一种新颖的视觉问答数据集。我们的数据集相对于以往的数据集具有两个重要的改进:首先,通过使用全景佩戴式摄像头拍摄的视频,观察整个环境,与以前的静态图像为中心的数据集不同;其次,与以往集中在单一挑战上的数据集不同,我们的数据集通过创新的视觉问答框架同时解决了多个现实生活中的障碍。我们使用各种先进的视频问答方法和多样化的度量验证了我们的数据集。结果表明,虽然取得了一些进展,AI 辅助服务对于视觉障碍者来说仍然没有达到满意的性能水平。此外,我们的评估突出了 360 度摄像头拍摄的视频中的自我运动特点和各种情境的独特特征。
May, 2024
本研究旨在利用一种新的方法,即多态输入的注意力循环网络,来描述自我中心影像序列的故事情节,并发布了第一个自我中心影像序列描述数据集,该方法的表现优于传统的注意力编码器 - 解码器方法。
Apr, 2017
从第一人称视角的视频中理解人类行为面临着重要挑战。本文提出了 EgoInstructor 模型,它能够自动检索语义相关的第三人称指导视频,以增强第一人称视频的视频字幕生成。通过对不同规模的第一人称和第三人称数据集进行自动配对来训练跨视角检索模块,并通过新颖的 EgoExoNCE 损失函数将第一人称和第三人称视频特征与描述相似行为的共享文本特征对齐。通过大量实验证明,跨视角检索模块在七个基准上表现出优越性能。借助第三人称视频作为参考,EgoInstructor 在第一人称视频字幕生成方面展现了显著的改进。
Jan, 2024
本文发现,缺少可用于训练和测试信号处理和机器学习算法的具有代表性的数据集,介绍并放出了一个包含超过 5 小时多模态数据的数据集,以便建立多模态 AR 方案以减少鸡尾酒会效应。
Jul, 2021
本文提出使用大规模第三人称视频数据集进行预训练的以自我为中心的视频模型方法,通过在第三人称视频中发现预测自我特定属性的潜在信号,并将其作为知识蒸馏损失融入模型预训练中,在精细调节进行自我中心的活动识别时表现出最佳表现,取得 Charades-Ego 和 EPIC-Kitchens-100 的最新成果。
Apr, 2021
提出了一种用于稠密视频字幕的跨视图知识传递的新型基准,从具有外视图的网页教学视频调整模型以适应内视图领域。
Nov, 2023
本文提供了一种具有像素级细分标签的 egocentric 图像数据集,其中包含 11,243 个日常活动中与对象相互作用时人手和对象的标签数据。我们引入了上下文感知的组合数据增强技术以适应分布外的 YouTube egocentric 视频,并展示了我们坚韧的手物分割模型和数据集可以作为基础工具,促进或实现手势状态分类、视频活动识别、手物交互的 3D 网格重建,以及对 egocentric 视频中的手物前景进行视频修复。
Aug, 2022
本文提出了一种新的视频语言预训练(Video-Language Pretraining)方法 ——Egocentric VLP,通过利用新发布的 Ego4D 数据集,分别从 EgoClip,EgoNCE 和 EgoMCQ 三个方向进行探索,最终成功在五个自我中心任务上实现了强大的表现。
Jun, 2022