- 音视频情感识别的细节增强的模态内外交互
我们提出了一个基于详细增强的模态内部和模态间交互网络(DE-III)的音频 - 视觉情感识别方法,利用光流信息丰富视频的纹理细节以捕捉面部状态变化,进一步改进视频和音频的丰富性和可区分性,通过详细的定量评估,我们的模型在三个基准数据集上都超 - 重新思考以动力学视角预测光流
本文提出了一种新的方法,通过从图像提取特征直接预测光流,同时考虑到光流估计的运动学视角和外观视角,采用可微分的变形操作解决了由于运动不准确造成的误差及遮挡问题,并通过自监督损失函数将运动特征与外观特征相结合,实验证明该方法在光流预测上表现优 - 事件驱动光流的向量符号架构
基于高维特征描述符的事件帧光流估计方法,在特征匹配方法论中取得了显著进展。
- 大规模视频对象分割中的全局动作理解
通过在动态视频的对象分割中集成场景全局运动知识,我们展示了从其他领域的视频理解中转移知识并结合大规模学习可以提高复杂环境下的鲁棒性。我们提出了一种半监督视频对象分割架构,利用运动理解中的现有知识进行更平滑的传播和更准确的匹配。同时,我们使用 - CVPRSciFlow:自洁迭代强化轻量级光流模型
光流估计是一种重要的视觉任务,该论文介绍了两种技术(自动清理迭代和回归聚焦损失),以增强光流模型的能力,并解决光流回归模糊性的问题,实验结果表明这些技术在轻量级光流模型中能够显著降低误差指标。
- CVPRMemFlow: 光流估计与记忆预测
MemFlow 是一种实时的光流估计和预测方法,通过使用内存中的历史运动信息实现光流的估计和预测,并通过适应不同视频分辨率来提高性能。
- F^2Depth: 自监督室内单目深度估计基于光流一致性和特征图合成
提出了一种自监督室内单目深度估计框架 F^2Depth,利用自监督光流估计网络对深度学习进行监督,结合经过精调的光流估计网络产生的多尺度特征图进行特征图融合损失计算,实验结果表明该框架及其提出的损失函数具有较好的室内场景单目图像泛化能力。
- CVPROCAI: 通过遮挡和一致性感知插值改进光流估计
通过生成中间视频帧和光流来支持鲁棒的帧插值,我们提出了一种利用前向映射和遮挡感知解决像素值模糊和缺失的 OCAI 方法,并引入了师生式半监督学习以提高插值质量和光流准确性。
- NeuFlow:在边缘设备上实时高精度机器人光流估计
我们提出了一种高效的光流架构 NeuFlow,通过全局到局部的匹配方案,在不同计算平台上显著提高了效率,并成功在小型机器人如无人机上实现了复杂的计算机视觉任务,如实时定位与地图构建(SLAM)。
- 用神经离散学习和专家级别模型对时空动力系统建模
本文提出了一种基于数据驱动的普适专家模块,即光流估计组件,用于捕捉广泛的实际物理过程的演化规律;通过精细的物理流程设计和神经离散学习,增强了局部洞察力并获得潜在空间中的重要特征。实验结果表明,与现有的基线方法相比,所提出的框架取得了显著的性 - 运动感知视频帧插帧
该研究介绍了一种 Motion-Aware Video Frame Interpolation (MA-VFI) 网络,通过引入新颖的分层金字塔模块,直接估计相邻帧之间的中间光流,从而解决了现有方法在复杂场景(包括遮挡和不连续运动)中易产生 - FlowDA: 无监督领域自适应光流估计框架
该研究引入 FlowDA,一个用于光流估计的无监督域自适应框架,结合了无监督光流估计的概念和技术,提出了基于课程学习的自适应课程权重模块,实验证明 FlowDA 在真实场景下优于现有方法,为光流估计性能的提升提供了新的见解。
- 通过半径分布正交代价体积实现内存高效的光流计算
MeFlow 是一种新的内存高效的方法,用于高分辨率光流估计,通过使用局部正交费用体积和自注意力,在高分辨率输入下实现竞争性性能和最高的内存效率。
- Open-DDVM: 光流估计的扩展与复制
本技术报告介绍了第一个开源的 DDVM 模型的复现,通过研究一些设计选择,我们发现了一些重要的因素,并且通过在公共数据上进行训练,在性能上与闭源的 DDVM 相当。
- 无监督事件驱动独立运动分割
通过几何约束,我们提出了一种基于事件感知的独立运动物体伪标签生成的无监督方法,可以处理任意数量的无先验对象,并能够在缺乏昂贵的物体运动标签的数据集上进行可扩展的评估。我们在 EVIMO 数据集上进行了验证,并从定量和定性上表明其与有监督方法 - 非模态光流
通过引入 Amodal Optical Flow 来解决透明或被遮挡物体造成的光流估计挑战,将可见区域与被遮挡区域结合起来形成的多层级像素级运动场景,提出了 AmodalSynthDrive 数据集来帮助研究该任务,并提供了强基准、Amod - CCMR:通过粗到细的上下文引导的运动推理实现高分辨率光流估计
提出了使用注意力机制的运动聚合概念在光流估计中的应用,通过高分辨率多尺度网络实现了高分辨率的精细运动估计,比单一尺度和多尺度注意力自由方法分别提高了 23.0% 和 21.6%,取得了 KITTI 2015 排名第一和 MPI Sintel - 基于深度学习和光流的视力障碍人士导航系统
一个方法用于指导视障人士在繁忙的街道上行走,通过使用视觉图像、物体检测和光流估计等技术,提供必要的信息和警告。
- RGM: 一个强大的全能匹配模型
通过在多个尺度上迭代地探索几何相似性,并使用一种额外的不确定性估计模块进行稀疏化,我们提出了一种名为 RGM(Robust Generalist Matching)的深度模型,用于稀疏和密集匹配。通过生成具有较大间隔的光流监督,我们构建了一 - 多次利用不同深度数据集驱动光流学习
通过利用光流估计与立体匹配之间的几何连接,我们提出了一种将各种现实世界深度估计数据集转化为生成光流的监督训练数据的方法,同时引入几何增强和辅助分类器进一步增强光流估计器的学习,该方法在多个数据集和光流估计模型上的广泛实验验证了其有效性和优越