时空注意力与偏移非局部搜索
提出一种新的用于搜索空间时间关注单元的方法,可以用于改善现有的骨干网络(如 I3D 或 S3D)中的视频分类精度,并在 Kinetics-600 和 MiT 数据集上超过 2%。
Jul, 2020
该研究提出了一种用于处理动态场景运动去模糊的有效像素自适应和特征关注设计,并使用有效的内容感知全局 - 局部过滤器模块,通过动态利用相邻像素信息和全局依赖性来显著提高性能,从而 surpassed 其他先前的去模糊方法。
Apr, 2020
该研究论文提出了一种处理动态场景运动去模糊问题的方法,通过像素自适应和特征注意设计以及内容感知的全局 - 局部滤波模块和像素自适应的非均匀采样策略,在去模糊的基准测试中与现有方法进行了广泛的定性和定量比较,取得了优异的性能。
Feb, 2024
该论文提出了一种基于注意力机制与二阶特征统计量的新型算法,可以直接建模长距离的特征图关系,同时将该算法与广义的 DropBlock 模块相结合,能够在主流的行人再识别数据集中表现优异。
Aug, 2019
本研究论文介绍了一种使用 Transformer 进行视频识别的模型,相较于其他视频识别模型,本模型计算效率更高。为实现此目的,本模型对全时空注意力机制进行两种简化处理:(a) 限制时间注意力于局部时间窗口内,(b) 使用高效的时空混合方法联合对空间和时间位置进行注意力处理,而不增加任何额外的成本。
Jun, 2021
本文介绍了一种通过非局部注意力机制,将空间和时间信息嵌入到特征表示中的视频行人重识别方法(NVAN)。实验表明 NVAN 在 MARS 数据集上的排名准确性比现有方法高出 3.8%,STE-NVAN 相比现有方法具有更先进的计算足迹。
Aug, 2019
该研究提出了一种基于自我注意力机制和长远时间关系的 Temporal Memory Attention Network(TMANet),来达到视频语义分割的最佳性能,尤其在 Cityscapes 和 CamVid 数据集上表现出新的最佳性能,并且避免了消耗大量计算资源的精确光流建模的缺点。
Feb, 2021
通过引入物理信息的神经网络,本文提出了解决空时视频超分辨率问题的方法,该方法能够准确处理大运动中的运动估计和运动补偿问题,并在固定大小和连续空时视频超分辨率任务中超过同类技术。
Apr, 2024
本文采用多帧点云视频中的时间信息来探测 3D 物体。研究者们提出了一种名为 GMPNet 的格网信息传递网络来编码短期时间信息,并提出了一个名为 AST-GRU 的基于注意力的时空变换 GRU 来进一步聚合长期帧。在 NuScenes 基准测试中,该方法表现优异,且不需要任何额外的手段。
Jul, 2022
该论文介绍了一种简单而有效的方法来建模视频对象分割中的时空对应关系,使用对应关系实现内存高效且鲁棒的框架,并且使用负平方欧氏距离计算亲和力,实现了多对象的高速分割,并获得了最新的最高性能结果。
Jun, 2021