- BabyView 数据集:婴儿和幼儿日常经历的高分辨率自我中心视频
通过首次发布迄今为止最大的发展性自我中心视频数据集,我们提供了一个开放挑战,即如何使这样的系统在与人类相同规模和分布的训练数据上实现人类水平的成功。
- CVPR从自我中心视频中识别对话伙伴
基于现有的计算机视觉数据集和任务,本研究侧重于从自我的视角识别会话伙伴,并描述了一个合适的数据集,该数据集包含了 69 小时的多样化多对话场景的自我的视频,对每个个体分配了一个或多个对话伙伴,为我们的计算机视觉任务提供了标签。通过这个数据集 - 个性化基于视频的手部分类学:用于脊髓损伤个体的应用
通过语义聚类自动识别晚期视频中的主要抓握类型,并利用深度学习模型创建个性化手部分类系统,为研究和临床人员提供了一种灵活和有效的手部功能分析策略。
- 视觉体验数据集:超过 200 小时的集成眼动、里程计和自我中心视频记录
介绍 Visual Experience Dataset(VEDB):一个由超过 240 小时的自我感知视频结合注视和头部追踪数据组成的数据集,提供了人类观察者在视觉世界中的前所未有的体验。该数据集包含 717 个会话,由 58 名 6-4 - LifelongMemory: 利用 LLM 为参照视频中的问题提供答案
通过使用多个预训练模型从广泛的自我中心视频内容中回答查询,本研究引入了 LifelongMemory,这是一种利用大型语言模型和视觉语言模型的新框架,以解决在复杂的视觉语言任务中捕捉长距离时间依赖关系的问题。
- ICCV自我中心行为识别的多模态蒸馏
本文研究了如何在仅使用 RGB 帧作为输入的情况下,保持多模态方法的性能表现,进而采用多模型知识蒸馏框架来处理这个问题,并在输入视角数量减少的情况下展示了更高的性能。
- CVPR通过自我头部姿态估计进行自我身体姿态估计
该研究介绍了一种新方法,利用头部运动作为中间表示,将三维人体运动的预测分解为两个阶段,并使用条件扩散生成多个可能的全身动作,消除了需要训练配对数据集的需求,可以分别利用大规模的追踪数据集和运动捕捉数据集。
- ECCV为自我中心视频估计更多的相机姿态对于 VQ3D 至关重要
通过设计新的 pipeline 并重新优化现有的 VQ3D 框架,我们在 VQ3D 排行榜中取得了 25.8% 的最佳成绩,比基线 8.7% 提高了两倍。
- ECCV多模式教师教授的学生为优秀的动作识别者
本文致力于通过多模态蒸馏的方式,提高仅以 RGB 帧为输入的多模态方法在行动识别方面的性能。实验表明,该方法在标准 / 组合行动识别中均明显优于基线 RGB 模型以及联合训练多种模态的方法。
- EPIC-KITCHENS VISOR Benchmark:视频分割和物体关系
本文介绍了 VISOR 数据集,它是一个像素注释的新数据集,也是用于在自我中心视频中分割手和活动对象的基准套件。VISOR 主要应对了从 EPIC-KITCHENS 视频中的新挑战,并引入了一个 AI 动力注释流程,以获得像素级注释的一致性 - CVPR从自我中心视角视频中预测手部动作和交互热点
本研究提出一种通过 Object-Centric Transformer 模型来预测在 egocentric 视频中未来的手部和物品相互作用的方法,并使用概率框架来处理不确定性。在实验中,我们对 Epic-Kitchens-55、Epic- - CVPR自我中心动作检测的更强基线
本研究介绍了一种针对 2021 EPIC-KITCHENS-100 竞赛中的自我中心视频动作检测方法,其主要采用滑动窗口策略生成建议,以较高的效率提高任务的检测性能。通过简单地采用这些策略,我们使用单个模型在测试集上达到了 16.10%的性 - CVPR混合现实中的自我中心人体分割
本文提出一种使用语义分割网络从自我中心视频中分割人体部位的方法。方法包括使用半合成数据集和基于 ThunderNet 架构的深度学习语义分割算法,用于构建比标准虚拟化身更逼真的虚拟环境,实现对人体部位的高效分割。
- CVPREGO-TOPO: 从自我中心视频中提取环境能力
通过学习人类源动作,我们引入了一种从第一人称视频中直接学习物理空间环境能力的模型,该模型将空间分解为基于活动的拓扑图,并展示了如何跨多个相关环境链接区域以获得其功能性的整合表示。我们在实验中展示了学习场景能力预测未来操作的方法。
- CVPR自我视角在视角不变动作识别中的作用
本文主要研究如何利用佩戴式摄像头所获得的数据进行行为识别。研究发现,使用卷积神经网络进行自我视角识别可以开辟行为识别领域的新研究视角。
- ECCV自我中心视频中的时间显著性适应
本研究采用一种深度神经模型来预测视觉显著性,将其应用于自我中心视频时域,通过添加卷积或 conv-LSTM 层,针对性的训练视频显著性预测数据集,结果表明,当观察者不移动且从狭窄的视野观察时,时域适应性是有益的,并公开了 EPIC Kitc - 基于 R - 聚类的自我中心视频分割
本文提出了一种新的基于聚类和概念漂移检测的能量最小化框架下的自我中心视频时间分割方法,并在超过 13,000 张具有不同可穿戴相机的自我中心数据集上进行了实验证明,该方法优于现有的聚类方法。
- 从自我中心度假视频中发现风景亮点
本论文提出一种识别大量自我中心视频数据中风景亮点的方法,通过自动确定美学特征如构图、对称性和颜色活力等,以及利用 GPS 等上下文信息来提高亮点检测的准确性,并通过用户研究验证了其有效性。
- 紧凑型卷积神经网络用于自我中心视频索引
本文提出了一种用于长期活动识别的紧凑型 3D 卷积神经网络(CNN)体系结构,通过使用稀疏光流体积作为输入,就能分类相机佩戴者的活动,从而实现了对非结构化第一人称视角视频的时间分割和分类,分类准确度达到 89%,并超过当前最先进技术 19%