可扩展的基于时空运动轨迹的自监督表示学习,用于多模式计算机视觉
地理空间活动与土地利用类型之间存在相关性。提出一种新颖的自监督方法,基于运动活动时间序列对景观进行分层。时间序列信号首先转换到频域,然后通过压缩自编码器转换为与任务无关的时间嵌入,该方法保留了时间序列中观察到的循环时间模式。通过深度语义分割,将像素级嵌入转换为类似图像的通道,可用于基于任务的异模态建模和下游地理空间任务的建模。实验证明,时间嵌入是时间序列数据的语义有意义的表示方法,并且在不同的任务中如分类住宅区和商业区等有着良好的效果。时间嵌入将时空运动轨迹数据转换为语义有意义的类似图像的张量表示,可以与其他数据模态(如 RBG 图像、道路网络的图嵌入、被动采集的 SAR 图像等)相结合进行多模态学习,从而促进地理空间计算机视觉中的多模态学习。多模态计算机视觉对于训练地理空间特征检测的机器学习模型以保持地理空间映射服务实时更新是至关重要的,可以显著提高用户体验和用户安全。
Oct, 2023
通过自我监督学习方法,将地理空间活动时间序列转化成任务无关的时间嵌入表示,然后使用深度语义分割,将这些嵌入转换成用于下游任务的基于图像通道的表示,实现对住宅区和商业区等不同类型用地的分类。
Apr, 2023
本文旨在提出一种自监督视频表示学习的新型先验任务,通过计算一系列时空统计摘要信息,利用神经网络训练来产生摘要信息,采用多种空间分区模式进行粗略的空间位置编码方法来缓解学习难度,在四个 3D 骨干网络上的实验结果表明,该方法优于现有方法在视频分析任务上的性能表现包括动作识别、视频检索、动态场景识别和动作相似性标签。
Aug, 2020
在没有人工标注标签的前提下,本文提出了一种自我监督学习方法来学习视频的时空特征,通过回归时空维度上的外观和运动统计量来提取视觉特征,并在视频分类任务中验证了其有效性。
Apr, 2019
该文章提出了一种名为 Continuity Perception Network (CPNet) 的自我监督学习方法,旨在利用视频连续性探索视频表示的本质,提出三种新的任务,促进视频表示学习,其在多个任务中表现优异。
Dec, 2021
这篇论文提出了一种通过结合几何学和深度视觉表示学习的思想,将其嵌入移动视觉场景理解的递归网络架构中,以学习如何将 2D 视觉特征整合到场景的潜在 3D 特征映射中,通过不同 iable 几何操作进行预测和分割,十分成功。
Dec, 2018
通过自我监督学习利用时空关系进行姿态嵌入的深度卷积网络,包括时序和空间任务,在数据采样中利用一种课程学习方法,并挖掘单个视频中的重复姿态,以提高姿势估计和检索效果。
Aug, 2017
提出了一种自我监督步态识别方法 ——SelfGait,利用海量、多样的未标记步态数据作为预训练,以提高时空骨干的表示能力,经过在 CASIA-B 和 OU-MVLP 基准步态数据集上的实验,证明了所提方法相对于四种最先进的步态识别方法的有效性。
Mar, 2021
自我监督学习在几何任务中的应用相对较少,本研究提出了一种评估自我监督几何表示方法的新姿态估计基准,通过在无语义或姿态标签的情况下训练,并在语义和几何下游任务上取得熟练度来研究强化自我监督几何表示方法,结果表明利用中间层表示可以提高姿态估计性能 10-20%,进一步引入无监督轨迹正则化损失可以额外提高 4% 的性能并改善对分布外数据的泛化能力,希望提出的基准和方法能为自我监督几何表示学习提供新的见解和改进。
Mar, 2024