AMT: 高效帧插值的全对多域变换
RAFT 是一个新的深度网络结构,用于光流问题,它提取每个像素的特征,为所有像素建立多尺度 4D 相关性体,并通过一个循环单元,通过对相关性体的查找,迭代更新光流场。RAFT 在 KITTI 和 Sintel 数据集上实现了最新颖的性能,并且具有高效率的推断时间、训练速度和参数计数。
Mar, 2020
本研究使用基于不对称双边运动估计的视频帧插值算法,结合预测对称双边运动场和不对称双边运动场技术,提出了一种采用本地和全局信息生成动态滤镜和剩余帧的新型合成网络。实验结果表明,所提出的算法在各种数据集上具有出色的性能。
Aug, 2021
本文提出了一种完全可微的 Many-to-Many(M2M)喷涂框架来高效地进行视频帧插值,该框架对于克服 motion based 视频帧插值的诸如遮挡和不连续性等挑战具有良好的稳健性和高效性,其每个源像素可以呈现多个目标像素,每个目标像素可以从更大的视觉上下文区域综合生成。
Apr, 2022
论文提出了一种面向多目标跟踪的测量相似度的方法,把问题表述为一种数据关联问题,并使用多个线索和长期轨迹规范来提高算法的鲁棒性和准确性,并且实验表明该方法在 KITTI 和 MOT 数据集上比现有算法的平均跟踪准确性提高了约 10%。
Apr, 2015
我们提出了一个全可微的 Many-to-Many(M2M)splatting 框架,通过估计多个双向流来直接向前扭曲像素到所需的时间步骤,实现了多对多的覆盖像素的效果,然后引入了一个灵活的空间选择性优化(SSR)模块来提高插值精度,从而提高了视频插值的效率和质量。
Oct, 2023
本文提出了一种基于适应性调制网络的自监督光流估计方法 CoT-AMFlow,采用流调制模块和代价体积调制模块去除噪点,同时采用师生共同训练策略,实时性能表现优于其他最先进的自监督方法。
Nov, 2020
本文提出了一种基于双向变形器(BiFormer)的新型 4K 视频帧插值器,它包含三个步骤:全局运动估计,局部运动细化和帧合成。通过使用双向变形器和基于块的代价卷积技术,该算法实现了出色的插值性能。
Apr, 2023
我们介绍了一种新的基于光流网络 RAFT 的校正立体的深度架构 RAFT-Stereo。我们引入了多级卷积 GRU,更有效地传播图像间的信息。RAFT-Stereo 的修改版本可进行准确的实时推断,其在 Middlebury 榜单上排名第一,在 1px 误差方面比第二好的方法高出 29%,并且在 ETH3D 两视图立体基准测试的所有已发布工作中表现最佳。代码可以在此 https URL 找到。
Sep, 2021
本文提出了一种针对大幅度中间动作的帧内插法算法,采用多尺度特征提取器的单一统一网络来进行训练,通过优化 Gram 矩阵损失实现了高质量的视频帧合成,竞争性地超越其他基于感知损失的方法,在多个基准测试中获得了更高的分数,并通过实验证明了该模型在难度较大的近似照片数据集上的有效性。
Feb, 2022
通过深度学习中的 Spatio-Temporal Multi-Flow 结构实现视频帧插值,采用 3D CNN 模型处理不同的视觉场景,最终应用 ST-GAN 框架进行效果提升,该方法在 14 个最新最优模型中赢得最优结果,PSNR 达到 1.09dB。
Nov, 2021