意图驱动的个体到外部视频生成
研究探讨外心 - 内心跨视角转换,提出一种名为 Exo2Ego 的生成框架,将转换过程分解为高层次结构转换和基于扩散的像素级幻觉,为未来进一步的发展提供了一个综合的外心 - 内心跨视角转换基准,并通过实验证实了 Exo2Ego 在生成仿真质量和泛化能力方面优于其他基准。
Mar, 2024
本文提出使用大规模第三人称视频数据集进行预训练的以自我为中心的视频模型方法,通过在第三人称视频中发现预测自我特定属性的潜在信号,并将其作为知识蒸馏损失融入模型预训练中,在精细调节进行自我中心的活动识别时表现出最佳表现,取得 Charades-Ego 和 EPIC-Kitchens-100 的最新成果。
Apr, 2021
本篇论文提出了一种基于 Bi-directional Spatial Temporal Attention Fusion Generative Adversarial Network(STA-GAN)的方法,通过多阶段处理,将 Exocentric view 视频序列转换为 Egocentric 视角,通过在时空注意力融合模块和双重鉴别器的作用下产生高质量的合成视频。在 Side2Ego 和 Top2Ego 数据集上的实验证明,该方法优于现有方法。
Jul, 2021
本文提出了一种 AE2 的自我监督嵌入方法,专门用于从 Ego-Exo 上下文的视角中学习不变的微观动作特征,并且在细粒度的视频理解任务中均表现出优异的性能。
Jun, 2023
从第一人称视角的视频中理解人类行为面临着重要挑战。本文提出了 EgoInstructor 模型,它能够自动检索语义相关的第三人称指导视频,以增强第一人称视频的视频字幕生成。通过对不同规模的第一人称和第三人称数据集进行自动配对来训练跨视角检索模块,并通过新颖的 EgoExoNCE 损失函数将第一人称和第三人称视频特征与描述相似行为的共享文本特征对齐。通过大量实验证明,跨视角检索模块在七个基准上表现出优越性能。借助第三人称视频作为参考,EgoInstructor 在第一人称视频字幕生成方面展现了显著的改进。
Jan, 2024
提出了一种用于稠密视频字幕的跨视图知识传递的新型基准,从具有外视图的网页教学视频调整模型以适应内视图领域。
Nov, 2023
EgoGen 是一种新型的合成数据生成器,可以为主观感知任务提供准确且丰富的真实数据。它采用一种创新的人体运动合成模型,通过利用虚拟人的主观视觉输入来感知三维环境,以解决在增强现实中模拟人类运动和行为的挑战。同时结合了避免碰撞的运动基元和两阶段强化学习方法,该模型可实现闭环解决方案,使虚拟人的感知和运动无缝耦合,并可直接适用于动态环境。EgoGen 通过易于使用和可扩展的数据生成流水线,展示了在头戴式摄像机的映射和定位、主观摄像机跟踪以及从主观视角恢复人体网格等三项任务中的有效性。作为一种开源工具,EgoGen 旨在为创建逼真的主观感知训练数据提供实用解决方案,并且可作为主观计算机视觉研究的有用工具。
Jan, 2024
我们呈现了 EgoExo-Fitness,这是一个全新的全身动作理解数据集,通过同步的自主和固定的第三人称摄像机记录了健身序列视频。与现有的全身动作理解数据集相比,EgoExo-Fitness 不仅包含第一人称视角的视频,还提供了丰富的注释,包括单个动作视频的两级时间界限以及每个动作的子步骤等。重要的是,EgoExo-Fitness 引入了新颖的注释,包括技术关键点验证、对动作执行的自然语言评论以及动作质量评分,为研究自主和固定视角下全身动作理解提供了新的资源。为了促进对自主和固定视角下全身动作理解的研究,我们构建了一套任务基准(即动作分类、动作定位、跨视图序列验证、跨视图技能判断和新提出的基于指导的执行验证任务),并进行了详细分析。代码和数据将在此 https URL 提供。
Jun, 2024
本研究旨在利用一种新的方法,即多态输入的注意力循环网络,来描述自我中心影像序列的故事情节,并发布了第一个自我中心影像序列描述数据集,该方法的表现优于传统的注意力编码器 - 解码器方法。
Apr, 2017
提出了一种跨视角学习的方法,通过分析不同视角下的摄像机位置并引入基于几何约束的注意力机制,以加强深度学习模型在个人视频中的动作识别能力。实验证明这种方法在标准的个人视频动作识别基准测试中表现良好,并达到了最先进的性能。
May, 2023