VisTR 是一种基于 Transformers 的视频实例分割框架,提出了一种新的实例序列匹配和分割策略实现对序列的监督,从相似性学习的角度框架实例分割和跟踪,大大简化了整个流程,并在 YouTube-VIS 数据集上取得了最佳结果和最高速度,这激励了未来更多的视频理解任务的研究。
Nov, 2020
使用 Transformer 和跨尺度窗口关注机制的视频帧插值方法,在多个基准测试上达到了新的最先进结果。
May, 2022
提出了一种名为 TeViT 的视觉 Transformer,它在视频实例分割任务中高效地对关键的时间信息进行建模,并在三个广泛采用的视觉实例分割基准测试中取得了最新的结果。
Apr, 2022
本文提出一种创新的方法,将 Transformer 编码器和卷积特征相结合,从而减少了近 50% 的内存负担,在推理时间上比现有的基于 Transformer 的插值方法运行速度提高了近四倍,并引入双编码器架构来结合局部相关的卷积和远程相关的 Transformer。在复杂运动方面进行了定量评估,展示了所提出方法的鲁棒性,与最先进的插值网络相比,取得了竞争性能。
Jul, 2023
该论文提出了一种基于 transformer 的图像分割方法,利用一个新的实例感知的时间融合方法来处理视频序列中物体实例的时序关系,通过建立实例代码、CNN 特征图之间的混合注意力机制来实现跨帧的一致性建模,使得模型能够直接检测和跟踪视频序列中的物体实例。
Dec, 2021
EfficientVIS 是一种全新的视频实例分割框架,实现了完全的端到端学习,采用了轨迹查询和轨迹建议技术,通过迭代式的查询 - 视频交互方法在空间和时间上关联和分割 RoIs,采用了对应关系学习,不需要手工数据关联即可一次性实现整个视频实例分割,训练时间显著减少并在 YouTube-VIS 基准测试上达到了最先进的准确率。
Mar, 2022
本论文提出了一种基于 Transformer 模型的视频插帧方法,利用自注意力机制实现了内容关注的多尺度帧间聚合,并引入本地注意力机制以及时间与空间的分离策略以优化性能。实验证明该方法在多个基准数据集上得到了优于现有方法的表现。
Nov, 2021
本文提出了一种信息帧综合(IFS)架构,通过三个目标任务和两个正则化器来生成一个可以用于视频分析的综合框架,并用大规模 Kinetics 数据集进行了广泛的实验。与将视频序列映射到单个图像的基线方法相比,IFS 表现出优越的性能。此外,IFS 在基于图像的 2D 网络和基于片段的 3D 网络上表现一致,并以较少的计算成本实现了与最先进方法的相当性能。
Jan, 2022
在压缩领域中,通过使用简单而有效的端到端转换器实现从压缩视频中进行学习并进行视频字幕生成,该方法在不同基准测试中取得了最先进的性能,并且运行速度比现有方法快近 2 倍。
Sep, 2023
本文提出了一种基于 Transformer 的端到端图像压缩和分析模型,实现云端图像分类应用,并通过两步训练策略解决了率失真精度优化问题。实验结果表明,该模型在图像压缩和分类任务中均具有有效性。