- IVCA: 视频复杂度互相关感知分析器
通过考虑帧间关系,我们提出了一种适用于视频流应用的关联感知视频复杂度分析器(IVCA)作为 VCA 的扩展。IVCA 通过引入特征域运动估计来提高时域特征的准确性,运用编解码器中的分层参考结构设计了层感知权重来调整不同层次的帧复杂度,并通过 - 视频中自动婴儿二维姿势估计:比较七种深度神经网络方法
通过比较七种不同的姿势估计方法,对婴儿在仰卧位的视频进行分析,发现除了 DeepLabCut 和 MediaPipe 外,其他方法在无需微调的情况下都表现出竞争力,其中 ViTPose 表现最佳。同时,引入颈中臀比例的错误和其他误测、多余检 - 面向加速磁共振成像的注意力感知非刚性图像配准
通过非刚性对齐获取可靠和一致的运动场,实现高对比度成像技术在磁共振成像中的快速重构。
- 适应动作的潜在扩散模型用于视频帧插值
通过结合运动估计和目标插帧帧之间的运动先验,提出了一种新的扩散框架(MADiff),该方法在生成视觉平滑和逼真结果方面显著优于现有方法。
- MOWA: 多合一图像变形模型
本研究提出了一种名为 MOWA 的多合一图像变形模型,通过在区域级和像素级上分离运动估计,以及引入轻量级基于点的分类器,为不同的实际变形任务提供动态的任务感知图像变形。实验证明,我们的 MOWA 模型在六个任务的多合一图像变形训练中,表现优 - 时空视频超分辨率与神经算子
通过引入物理信息的神经网络,本文提出了解决空时视频超分辨率问题的方法,该方法能够准确处理大运动中的运动估计和运动补偿问题,并在固定大小和连续空时视频超分辨率任务中超过同类技术。
- 基于事件相机的直线和运动估计的 N 点线性求解器
利用适合的线参数化方法设计了一种线性求解器,可用于通过事件相机进行快速且稳定的运动估计,同时能够处理多个线的观测并恢复完整的线性相机速度。
- 具有集成的不确定性感知深度视频压缩
我们提出了一种具有深度集成的预测不确定性感知视频压缩模型,可以有效地捕捉预测不确定性,通过鼓励集成成员之间多样性并研究在视频压缩任务中引入对抗训练的好处来解决先前学习视频编解码器中的中间表示误差和重构帧中的伪影,实验结果显示,与 DVC P - 具有空间 - 时间超分辨率的条件神经网络视频编码
该研究论文提出了一个视频轨道的图像压缩方法,采用了混合编码框架以及一些新技术,包括使用 Spynet 网络进行准确的运动矢量估计,引入上下文挖掘方案以充分利用空时信息,以及整合空时超分辨率模块提高速率失真性能。
- 基于梯度的快速准确锥束 CT 头部运动补偿方法
通过引入基于梯度的优化算法的新方法,本文提出了一种用于 Cone-beam CT 运动估计的方法,该方法利用了 Cone-beam CT 的几何结构的广义导数,通过形成完全可微分的目标函数来为当前运动估计的重建空间质量评级,极大地加快了运动 - LEAP-VO: 长期有效的任意点追踪视觉里程计
基于视觉输入,视觉里程计根据图像序列中的丰富时间上下文和选择的关键点,通过 LEAP 模块进行长期有效的任意点跟踪,有效解决遮挡、动态对象和低纹理区域等挑战,从而提供全轨迹可靠性评估,其前端应用了长期点跟踪的新实践方法,实验证明在各种视觉里 - 优化预训练动作模型
使用自我监督训练改进现有的有监督模型,通过将数据标记和训练分为两个不同的阶段,并结合简单的技术来稠密化和重平衡伪标签,从而在实际视频中实现可靠的增益,适用于短期(基于流)和长距离(多帧)像素跟踪。
- 来自 SAM 的区域可区分先验的视频帧插值
该研究介绍了一种利用开放世界分割模型来提高视频帧插值中运动估计准确性的新方法,通过将区域可区别先验表示为空间变化的高斯混合,设计了可以与现有运动估计方法集成的分层区域感知特征融合模块,实验证明该方法能够在各种场景下显著提升视频帧插值性能。
- 光流反向传播的自监督运动放大
本文介绍了一种简单的自监督方法,用于放大视频中微小的运动:给定输入视频和放大因子,我们通过操作视频,使其新的光流按所需比例缩放。我们提出了一个损失函数来训练我们的模型,该函数估计生成视频的光流并惩罚其与给定放大因子的偏差程度。因此,训练涉及 - 基于 FisheyeViT 和基于扩散的动作精炼技术的自我中心全身运动捕获
本研究中,我们探索了使用单个鱼眼相机进行自我中心的全身动作捕捉,同时估计人体和手部动作。我们提出了一种新的方法,利用 FisheyeViT 提取鱼眼图像特征,将其转换为像素对齐的 3D 热图表示以预测 3D 人体姿势。我们还整合了专用的手部 - MaskFlow: 对象感知的运动估计
我们介绍了一种新颖的运动估计方法 MaskFlow,能够在小目标、大位移和外观剧变等极具挑战的情况下估计准确的运动场,通过利用物体级特征和分割,MaskFlow 能够近似物体的平移运动场,并提出了一种将不完整的平移运动场结合到后续的运动估计 - 多尺度动作感知和时空通道上下文编码网络用于学习视频压缩
提出一种基于运动感知、空时域通道上下文编码的视频压缩网络 (MASTC-VC),该网络利用变分自编码器 (VAEs) 学习隐藏表示,捕捉帧内像素和帧间运动的特征,并通过多尺度运动感知模块 (MS-MAM) 和空时域通道上下文模块 (STCC - UniQuadric:未知刚体物体 3D 跟踪和轻量建模的 SLAM 后端
利用优化框架,结合追踪、建模、估计等技术,实现了对环境中未知刚体物体的跟踪和建模,在无人系统和虚拟现实交互应用中具有重要意义。
- 基于 5 点最小问题求解事件相机的相对运动估计
使用事件相机进行线性运动估计仍然是一个开放的问题,本文针对此问题提出了一种正确的非线性参数化方法,并引入了一种新颖的 5 点求解器来联合估计线参数和线性摄像机速度投影,以对多条线进行融合,从而生成更稳定的相对运动估计,并捕捉到更多的内点。
- IBVC: 基于插值的 B 帧视频压缩
通过使用两个主要操作:视频帧插值和压缩,IBVC(插值驱动的 B 帧视频压缩)引入了一种无比特率的双向运动估计与补偿方法,避免了光流量化和额外的压缩失真,通过自适应选择具有插值多尺度依赖的有意义的上下文,减少重复比特率的使用,并通过提出条件