基于交互式方差注意力的时序评论在线剧透检测
我们提出了一种多尺度时空交互网络(MSTI-Net),采用基于注意力机制的时空融合模块(ASTM)代替直接融合,并注入多个 ASTM 基础的连接,以促进所有可能的空间时间交互,最终将在多个尺度上学习的正常信息记录在内存中,在测试阶段增强异常和正常事件之间的区分。该方法在三个标准数据集上取得了良好的实验结果,UCSD Ped2 的 AUC 值达到了 96.8%,CUHK Avenue 的 AUC 值达到了 87.6%,ShanghaiTech 数据集的 AUC 值达到了 73.9%。
Jun, 2023
本研究使用 VSPW 数据集设计了一个基于时空双边网络和视觉转换器的视频场景解析模型,该模型利用卷积和视觉转换器获得空间和上下文信息,并且使用时间上下文模块获取帧间上下文信息,实验证明该模型可以在 VSPW2021 挑战赛中获得 49.85% 的 mIoU。
Dec, 2021
通过引入边缘稀疏性和节点稀疏性的 SViTT 稀疏视频文本架构可以以较低的成本进行多帧推理,优于朴素变压器基线,并对多个视频文本检索和问答基准进行了训练,以及在更长的片段长度下是针对模型稀疏性(sparsity)进行了培训。
Apr, 2023
提出了一种基于文本的语义相关质量评价方法 (SAQI) 及其本地化版本 (SAQI-Local)。通过与现有低级指标结合,提出了统一盲视频质量指数 (BVQI) 及其改进版 (BVQI-Local),并通过有效的微调方案,实现了优于普遍基于人类意见的 VQA 方法的性能和卓越的泛化能力。
Apr, 2023
利用人眼的稀疏扫描机制,通过引入稀疏扫描自注意机制(S^3A)和稀疏扫描视觉 Transformer(SSViT),有效降低计算负荷,达到在计算机视觉任务中出色的性能表现。
May, 2024
故事可视化是一项具有挑战性的文本到图像生成任务,不仅需要从文本描述中呈现视觉细节,还需要对跨多个句子的长期上下文进行编码。本文提出了一种新颖的记忆架构用于双向 Transformer,并采用在线文本增强生成多个伪描述作为训练过程中的辅助监督,以更好地适应推理中的语言变化,通过对 Pororo-SV 和 Flintstones-SV 两个流行的 SV 基准测试的广泛实验,该方法在各种评估指标上明显优于现有技术,并具有相似或更少的计算复杂性。
Aug, 2023
使用稀疏对抗性视频攻击通过时空可逆神经网络在时空特征空间信息交换中生成对抗性视频,实验证明该方法比现有方法生成的对抗性示例具有更高的隐秘性和愚弄性。
Jun, 2024
帧质量下降是视频理解领域中的主要挑战之一。为了弥补由于帧质量下降而引起的信息损失,最近的方法利用基于 Transformer 的集成模块来获得时空信息。然而,这些集成模块过于复杂和繁重。在本文中,我们提出了一个简洁且统一的框架,称为时空提示网络 (STPN)。它通过动态调整骨干网络中的输入特征,可以高效地提取稳健准确的视频特征。此外,STPN 易于推广到各种视频任务,因为它不包含任务特定的模块。没有花哨的设计,STPN 在三个广泛使用的数据集上取得了最先进的性能,涵盖了不同的视频理解任务,例如用于视频对象检测的 ImageNetVID,用于视频实例分割的 YouTubeVIS 以及用于视觉目标跟踪的 GOT-10k。
Feb, 2024
本文提出了一种基于学习的、实例相关的注意力机制来加速 Vision Transformers 网络,其将自注意力操作限制在空间上邻近的一组 Token 上,并通过轻量级的连接性预测器模块评估 Token 之间的连接得分来解决由结构化注意力模式引起的语义信息丧失问题,可以在保证准确率下显著减少计算量,达到更优的精度-计算复杂度平衡点,进一步结合 Token 稀疏机制,该方法可以将 Vision Transformers 网络的 FLOPs 降低超过 60%。
Mar, 2023
提出了一种结合自我关注和 S4 层优点的高效长范围视频模型,具有复杂的长范围时空依赖性,比传统的全自注意模型快 2.63 倍,占用 8 倍更少的 GPU 内存,并在视频分类等任务中取得了最先进的结果。
Apr, 2022