- 基于光流和伪深度图的密集单目运动分割:一种零样本方法
我们提出了一种创新的混合方法,既利用深度学习方法又利用基于光流的传统方法来进行密集运动分割,而无需进行任何训练。
- 基于半监督分割和光流的通用铁路障碍物检测系统
利用光流线索指导的半监督分割方法解决铁路场景中多类障碍物检测问题,通过生成逼真的合成图像并利用光流作为先验知识来有效训练模型,实验证明了该方法的可行性和效果。
- 面向资源受限无人机的低延迟视觉惯性里程计,利用传感器加速的光流
通过使用全局快门相机和 ASIC 构成的紧凑光流传感器来替换 VINS-Mono 流水线的特征跟踪逻辑,实现了 VIO 传感器系统的加速,降低了延迟和计算负载,从而使 VINS-Mono 操作性能提高到 50 FPS,将在资源受限设备上实现 - 愿舞者与你同在:非人形舞蹈生成框架
我们提出了一个框架,使非人形代理能够从人类视频中学习跳舞,通过训练一个奖励模型,该模型可以感知光流(视觉节奏)和音乐之间的关系,并通过生成与音乐匹配的视觉节奏的动作来学习跳舞。
- DCPI 深度:在无监督单目深度估计中显式注入稠密对应先验
通过三个创新点,本研究提出了一个名为 DCPI-Depth 的框架,该框架采用稠密对应先验,通过上下文信息和光流进行深度感知,实现了在具有挑战性场景中的准确深度估计,并展示了更合理的平滑性。
- SEA-RAFT:用于光流的简单高效准确的 RAFT 算法
SEA-RAFT 是一种更简单、高效、准确的用于光流的 RAFT 算法,通过采用混合拉普拉斯损失函数进行训练,直接回归初始光流以提高收敛速度,并引入刚性运动预训练以提升泛化性能。在 Spring 基准测试中,SEA-RAFT 以 3.69 - OpFlowTalker:通过光流引导实现逼真自然的说话人脸生成
通过应用光流来指导面部图像生成,增强帧与帧之间的连续性和语义一致性,这篇论文提出了一种名为 “OpFlowTalker” 的新方法,利用音频输入预测的光流变化而非直接预测图像,平滑图像的过渡并使其与语义内容相吻合,通过序列融合技术替代单帧的 - 大气湍流抑制的等变模板配准
通过模拟光流和引入隐函数模板,我们提出了一种强大的方法来恢复受大气湍流影响的图像的辐照度,该方法在注册中没有使用模板,避免了与模板初始化相关的伪影,并取得了最先进的性能。
- 基于条件扩散模型的语义一致视频修复
通过将视频修复问题作为条件生成建模问题加以解决的框架,以及利用生成方法的优势,本文展示了能够生成多样化且高质量修复效果的方法,并能够在时间、空间和语义上与给定的上下文相协调地合成新内容。
- 摩托思考:全像素匹配的自我运动预测
通过应用光流和自我运动补偿的图像方法,该项目解决了行人应用中的运动分析问题,预测人类或机器运动意图的位置和方式,并通过高斯聚合稳定预测的运动焦点区域,增强了运动方向的预测准确性。
- CVPR不同 iable 宽基线姿态优化的多会话 SLAM
我们介绍了一种新的多会话 SLAM 系统,可以在一个全局参考下跟踪多个不同的视频中的相机运动。我们的方法通过预测光流,并结合求解器层来估计相机姿态。该系统可以连接不连续的序列,进行视觉测距和全局优化,与现有方法相比,我们的设计精确且对灾难性 - 基于自适应亲和图网络的结构感知人体重塑
通过引入自适应亲和 - 图网络,本研究旨在通过生成光流对身体形状中的局部和全局转换进行编辑,从而提升重新塑造照片的美感,超越之前的工作,并在所有评估指标上实现最先进的效果。
- 运动物体分割:只需 SAM(和 Flow)
通过将光流与 Segment Anything 模型 (SAM) 结合,本文研究了两种模型,一种使用光流作为输入,另一种使用 RGB 作为输入,这两种简单的方法在单个和多个物体分割基准测试中,凭借其出色的性能超过了所有先前的方法,同时还将这 - CVPR使用事件相机进行乒乓球旋转估计
使用事件摄像机利用光流从提取的事件中推断球的自旋,在实时环境中实现飞行球的自旋估计,平均自旋幅度误差为 10.7±17.3 rps,自旋轴平均误差为 32.9±38.2°。
- FlowDepth: 光流与自监督单目深度估计的解耦
通过动态的运动流模块及深度感知模糊和成本体积稀疏损失,在自我监督多帧方法中解决了深度估计中的运动物体、光流和光度误差问题,并在实验中表现出超越其他方法的性能。
- 运动感知的高斯点云成型在高效动态场景重建中的应用
提出了一种新的运动感知增强框架,通过挖掘光流中的有用运动线索来改进动态场景重建,以提高不同动态 3D 高斯喷溅方式的性能,并针对基于形变的范例提出了一种瞬态感知形变辅助模块。经过广泛的实验证明,与基线相比,我们的方法在渲染质量和效率方面都表 - 将光流融入 nnU-Net 框架用于手术器械分割的研究
通过使用光流估计在手术器械分割任务中作为额外输入 nnU-Net 框架的 OF 图,可以在进一步不修改架构的情况下提高其性能。使用 CholecSeg8k 数据集,结果显示 OF 图的使用可以提高具有高运动的类别的检测效果,即使这些类别在数 - Ada-Tracker: 软组织跟踪:基于帧间和自适应模板匹配
通过光流技术自然捕捉像素级组织变形并自适应地校正被追踪模板,Ada-Tracker 方法采用了短期动态建模和长期动态建模,实现了在手术场景中更准确且更稳健的软组织跟踪。
- 视频伪装目标检测中的明确动作处理和交互提示
提出了一种新颖的显式动作处理和交互提示框架(EMIP),用于视频伪装目标检测(VCOD)。该框架利用预训练的光流基础模型,通过双流架构实现伪装分割和光流估计,并通过交互提示方式增强两个流的输出。实验结果表明,EMIP 在流行的 VCOD 基 - 值得信赖的自注意力:使网络只专注于最相关的参考资料
通过利用在线遮挡识别信息构建扩展可视特征和两个强约束条件,该研究实现了光流预测中对被遮挡点的精确定位,取得了当前领先方法的显著误差减小,对所有点、未被遮挡的点和被遮挡的点分别比 GMA-base 方法 (MATCHFlow (GMA)) 分