重新思考用于高效光流的 RAFT

Jan, 2024

Rethinking RAFT for Efficient Optical Flow

Navid Eslami, Farnoosh Arefi, Amir M. Mansourian, Shohreh Kasaei

TL;DR该论文提出了一种基于 RAFT 框架的 Attention-based Feature Localization (AFL) 方法，通过引入注意力机制处理全局特征提取和解决重复模式问题，进而提出了 Amorphous Lookup Operator (ALO) 来提高收敛速度和处理大位移的能力。结果表明，该方法在 Sintel 数据集上提高了 10%，在 KITTI 数据集上提高了 5%，且仅速度降低了 33%，内存使用仅增加了 13%。

Abstract

Despite significant progress in deep learning-based optical flow methods, accurately estimating large displacements and repetitive patterns

deep learning-based optical flow methods large displacements repetitive patterns raft framework efficient raft

发现论文，激发创造

RAFT: 光流的循环全对场变换

RAFT 是一个新的深度网络结构，用于光流问题，它提取每个像素的特征，为所有像素建立多尺度 4D 相关性体，并通过一个循环单元，通过对相关性体的查找，迭代更新光流场。RAFT 在 KITTI 和 Sintel 数据集上实现了最新颖的性能，并且具有高效率的推断时间、训练速度和参数计数。

Mar, 2020

GMFlow：通过全局匹配学习光流

通过将光流重新描述为全局匹配问题，并使用定制 Transformer 进行特征增强、相关性和 softmax 层进行全局特征匹配、以及自注意力层进行流传播来构建 GMFlow 框架，从而实现高准确性和高效率的光流估计。

Nov, 2021

SEA-RAFT：用于光流的简单高效准确的 RAFT 算法

SEA-RAFT 是一种更简单、高效、准确的用于光流的 RAFT 算法，通过采用混合拉普拉斯损失函数进行训练，直接回归初始光流以提高收敛速度，并引入刚性运动预训练以提升泛化性能。在 Spring 基准测试中，SEA-RAFT 以 3.69 的端点错误（EPE）和 0.36 的像素异常率（1px）取得了最先进的准确性，相较于最佳发布结果减少了 22.9% 和 17.8% 的误差。此外，SEA-RAFT 实现了在 KITTI 和 Spring 数据集上最好的跨数据集泛化性能。尽管保持了竞争性能，但 SEA-RAFT 至少比现有方法快 2.3 倍。代码可以从此 https URL 进行公开获取。

May, 2024

CRAFT: 面向鲁棒性光流的交叉关注流变换器

提出了一种新型的 CRoss-Attentional Flow Transformer (CRAFT) 系统，该系统利用语义平滑器和变形器跨框架注意力代替点积相关性来估计光流。与其他深度学习光流方法相比，CRAFT 在对大运动进行准确估计时效果更佳，并在 Sintel（Final）和 KITTI（foreground）基准测试中创造了新的最优表现。

Mar, 2022

光流分离架构与训练

通过使用相同的现代培训技术和数据集，作者重访了三种主要的光流模型 PWC-Net，IRR-PWC 和 RAFT，观察到显着的性能提升，并表明这些培训细节的重要性和普遍性。新培训的 PWC-Net 和 IRR-PWC 模型显示出惊人的大幅改进，在 Sintel 和 KITTI 2015 基准测试中，其对比原始发布结果提高了 30％，在推理期间的运行速度也更快。RAF 的新培训实现了在 KITTI 2015 上的 Fl-all 得分 4.31％，比当时所有已发布的光流方法都更准确。

Mar, 2022

利用重叠关注全局匹配进行光流估计

本文提出了一种学习匹配 - 优化框架 GMFlowNet，将全局匹配引入到直接回归之前，同时引入了基于补丁的重叠注意力来提高匹配质量，实验结果表明 GMFlowNet 在标准基准上性能最佳，能够有效处理大运动和无纹理区域的挑战。

Mar, 2022

RAFT-Stereo：用于立体匹配的多层循环场变换

我们介绍了一种新的基于光流网络 RAFT 的校正立体的深度架构 RAFT-Stereo。我们引入了多级卷积 GRU，更有效地传播图像间的信息。RAFT-Stereo 的修改版本可进行准确的实时推断，其在 Middlebury 榜单上排名第一，在 1px 误差方面比第二好的方法高出 29％，并且在 ETH3D 两视图立体基准测试的所有已发布工作中表现最佳。代码可以在此 https URL 找到。

Sep, 2021

通过半径分布正交代价体积实现内存高效的光流计算

MeFlow 是一种新的内存高效的方法，用于高分辨率光流估计，通过使用局部正交费用体积和自注意力，在高分辨率输入下实现竞争性性能和最高的内存效率。

Dec, 2023

逐步稀疏的局部注意力在视频物体检测中的应用

该论文提出了一种名为 PSLA 的新型模块，它通过逐步稀疏的步幅在局部区域内建立跨帧特征间的空间对应关系，并使用这个对应关系来传播特征。基于 PSLA，提出了 RFU 和 DenseFT 来分别建模时间外观和丰富特征表示，进而构建了一种新型的视频目标检测框架。实验表明，该方法在模型大小更小、运行时间可接受的情况下取得了最佳准确度。

Mar, 2019

E-RAFT: 来自事件相机的稠密光流

本文提出了一种针对事件相机的全新稠密光流计算方法，通过引入特征相关性与顺序处理的设计思路，相比于现有方案在数据集 MVSEC 上将终点误差降低了 23％，并提出一种新的数据集，更能反映现实场景中物体的运动情况，最终结果的终点误差比之前的方案减少了 66%。

Aug, 2021