- UniAnimate: 统一视频扩散模型驯服一致人类形象动画
通过引入 UniAnimate 框架,我们解决了人类图像动画技术中的两个限制,实现了高效和长期的视频生成,具备了优于现有技术的合成结果。
- 抽榨时间给移动视频理解
借鉴 SqueezeTime 的概念,本文提出了一种轻量级视频识别网络(SqueezeTime)以在移动设备上实现高精度的视频理解,通过将时间轴压缩到通道维度,并设计了 Channel-Time Learning (CTL) Block,捕 - CVPRTRIP:图像降噪先验的时域残差学习用于图像到视频扩散模型
最近在文本到视频生成方面的进展展示了强大的扩散模型的实用性,但是在将扩散模型应用于静态图像转视频生成(即图像到视频生成)时,这个问题并不简单。悬念源于以下方面:连续动画帧的扩散过程不仅应保持与给定图像的忠实对齐,还应追求相邻帧之间的时间一致 - CVPR增量动作分段的连续时间合成
数据回放是一种成功的图像增量学习技术,但在视频领域的应用尚不成熟。本论文首次探索了视频数据回放技术在增量动作分割中的应用,重点关注动作时间建模。我们提出了一种名为 Temporally Coherent Action (TCA) 的模型,通 - M2-RAAP:一种多模式方法以推进基于适应性预训练的零 - shot 视频文本检索的有效与高效性
我们提出了一种名为 M2-RAAP 的多模态配方,用于推进基于适应性预训练的零 - shot 视频文本检索,具有有效和高效的特点。通过对视频文本预训练中的四个关键步骤进行全面研究,我们总结了这项实证研究成果,其中我们的技术贡献包括数据过滤和 - MV2MAE:多视角视频掩码自编码器
从多视角捕获的视频可以帮助感知世界的 3D 结构,并对计算机视觉任务,如动作识别、跟踪等产生影响。本文介绍了一种从同步多视角视频中进行自监督学习的方法,通过交叉视角重构任务向模型注入几何信息。我们的方法基于掩码自编码器(MAE)框架,在同视 - 基于向量化高清地图构建的流查询去噪
该研究论文通过引入 SQD 策略作为一种新的时态建模方法,以提升自动驾驶中复杂场景感知性能,并且在构建高清地图方面展现出潜在的时间信息潜力。
- 房间入住预测:探索机器学习和时间洞察的力量
我们的研究验证了我们对连续和分类任务的预测框架的有效性,并强调通过包含时间方面来提高预测能力的潜力。该研究凸显了机器学习在塑造节能实践和房间占用管理方面的前景。
- T-MAE:用于点云表示学习的时态掩码自动编码器
在户外点云分割中,基于转换器等先进网络的建模能力受制于标注数据的稀缺性。为了更好地利用点云序列中蕴含的时间信息,本文提出了一种有效的预训练策略,即时序遮蔽自动编码器 (Temporal Masked AutoEncoders, T-MAE) - Mug-STAN:适用于通用视频理解的图像语言预训练模型的调整
我们在这篇论文中研究了从模型和数据的角度来展示图像到视频转换的挑战,并提出了一种名为 Mug-STAN 的简单而有效的框架,通过解决非一般化时序建模和部分不匹配的视频文本数据的问题,将图像 - 文本模型扩展到多样化的视频任务和视频 - 文本 - 延迟记忆单元:通过延迟门建模时间依赖
提出了一种新颖的延迟记忆单元(DMU),通过引入延迟线结构和延迟门,来增强普通 RNN 的时间建模能力,以解决梯度消失和梯度爆炸等问题,并在语音识别、雷达手势识别、心电波形分割和串联顺序图像分类等应用中展示出优越的时间建模能力。
- ZeroI2V:从图像到视频的零成本预训练 Transformer 适应
提出了一种零成本适应范式(ZeroI2V)来将图像变换器应用于视频识别任务,实现图像到视频的快速转换和零额外计算成本。通过引入空间 - 时间双头注意力(STDHA)和轻量级线性适配器的线性适应策略,实现了对视频动态性和图像与视频之间的领域差 - 一对一:无需视频指导的视频对话可行
通过引入分支时间适配器(BT-Adapter),这篇研究论文提出了一种在图像 - 语言预训练模型基础上扩展视频领域的方法,实现了在视频对话中强大的视频理解能力,并在各种视频任务上取得了零样本和视频指导调优等方面的最新成果。
- ICCV高效图像到视频迁移学习的空间和时间解耦
DiST 是一种双编码器结构,其中预训练的基础模型充当空间编码器,引入了轻量级网络作为时间编码器,通过插入一个集成分支来融合时空信息,从而实现了视频的空间和时间解耦学习,提高了性能表现。
- 精炼的时间金字塔压缩与增强变压器用于 3D 人体姿势估计
通过引入 RTPCA Transformer,利用时间维度的 Temporal Pyramidal Compression-and-Amplification(TPCA)结构和 Cross-Layer Refinement(XLR)模块,从 - BIT:高效的监督动作分割的双层时序建模
我们提出了一种高效的 BI-level Temporal modeling (BIT) 框架,用于监督行动分割任务,通过学习明确的行动标记来表示行动段,在帧级和行动级上进行时间建模,同时保持较低的计算成本,提高了现有基于 transform - StreamMapNet:面向矢量化在线高清地图构建的流式映射网络
StreamMapNet 是一种能进行长序列时间建模视频的新型在线地图制作方法,能够在广泛感知范围内构建具有高稳定性的大范围本地高清地图,并解决了现有方法的局限性,其在所有设置下均明显优于现有方法,同时保持 14.2FPS 的在线推理速度。
- 视频 BagNet:短时空感受野提高长期行为识别的鲁棒性
通过缩小行动识别模型的时间感受野,作者发现短时间感受野可以提高模型对子行动顺序变化的鲁棒性。
- ICCV在线行动理解的记忆与预测变换器
该论文提出了一种基于记忆和预测的方法来建模整个时间结构,包括过去、现在和未来,并通过 Memory-and-Anticipation Transformer 在在线动作检测和预测任务中取得显著的性能优势。
- 零样本视频识别的正交时域插值
使用 Feature Factorization 和正交时间插值方法改善零样本视频识别任务,并通过在 Kinetics-600、UCF101 和 HMDB51 等数据集上的性能表现证明了 OTI 模型相较先前最先进的方法具有明显优势。