本文提出了一种利用一组涵盖多个视频的运动模式自动组织松散视频内容的系统,包括行为发现和空间对齐两个步骤。该系统可用于视频索引和检索,并可从互联网视频中学习物体类别的外观或行为。
Nov, 2015
系统通过机器学习前端预测2D关节位置,离散优化获得关节对应关系,并通过能量最小化配合3D模型恢复出广泛种类的四足动物的3D形状与运动,该系统在动物视频测试中展现出精准重建的能力。
Nov, 2018
设计了一种计算机体系结构,利用运动信息进行物体分割以发现视频中的伪装对象,并在大规模的 MoCA 视频数据集上证明了其有效性。
Nov, 2020
该研究提出了一种基于B-KinD方法的自监督学习方法,使用编码器-解码器架构重建视频帧之间的时空差异,仅关注移动区域,探索语义意义的身体部位,可用于昂贵的监督学习替代方案。
Dec, 2021
创建了一个大而多样的数据集Animal Kingdom,用于多种已注释的任务,帮助更全面地理解自然动物行为,包括视频定位、精细多标签动作识别和姿势估计任务,跨越了6个动物大类的850个物种,提出了一种CARe模型,可以学习识别新的动物行为,实验结果显示了很好的性能
Apr, 2022
本文提出了使用非刚性3D神经先验结合深流技术从仅有两到三个非标定手持相机的视频中获取高保真的地标估计,只需少量人工标注便可达到与全监督方法相当的2D结果,以及其他现有方法不可能实现的3D重建。
Oct, 2022
本研究概述了基于卷积神经网络体系结构的人类动作识别和姿态估计方法,并将其用于动物行为分类的技术进化及其架构适应性的分析。
Jan, 2023
提出了一个名为MammalNet的新大规模动物行为数据集,包括173种哺乳动物的17个目、69个科,该数据集涵盖了过去动物行为研究中关注的12种高级动物行为,并在其上建立了三种基准。
Jun, 2023
本文旨在从文本描述中生成多样且逼真的动物运动序列,无需大规模动物文本-运动数据集。通过设计一个模仿GPT的模型架构,利用从人类数据中学到的先验知识应用于动物领域,我们可以联合训练动物和人类运动的运动自编码器,并同时优化人类运动编码、动物运动编码和文本CLIP嵌入之间的相似性分数。我们创造性地解决了该问题,并能够生成具有高多样性和逼真度的动物运动,数量和质量上均优于在动物数据上训练人类运动生成基线的结果。此外,我们还推出了AnimalML3D,第一个包含1240个动画序列和36种不同动物身份的文本-动物运动数据集。我们希望这个数据集能够解决文本驱动动物运动生成中的数据稀缺问题,并为研究社区提供一个新的研究平台。
Nov, 2023
我们引入了Ponymation,一种从原始、未标记的在线视频中学习生成性模型的方法,该方法不需要任何姿势注释或参数化形状模型进行训练,并且纯粹是从从互联网获得的一系列原始视频片段中学习的。
Dec, 2023