- ICML连续时间动态图上的长距离传播
通过引入连续时间图反对称网络(CTAN),本文展示了 CTAN 方法在模拟长程依赖任务以及在合成长程基准和实际基准上的优越性能,从而证明了其长程建模能力并将长程任务作为时间图模型评价的一部分。
- MSSTNet:用于动态面部表情识别的多尺度时空卷积 - 变换网络
通过提出多尺度时空 CNN-Transformer 网络(MSSTNet),本研究在人脸动态表情识别领域中取得了最先进的结果,该方法利用多尺度空间和时间信息实现了对面部表情的准确分类。
- TCNet: 基于轨迹和相关区域的连续手语识别
提出了 TCNet,一种混合网络模型,有效地从视频中模拟 Trajectories 和 Correlated regions 的时空信息,实现了连续手语识别中长距离的空间交互作用,并在四个大规模数据集上表现出了最先进的性能。
- 自适应跟踪的自回归查询与时空 Transformer
提出了一个自适应的带有时空转换器的跟踪器(命名为 AQATrack),通过采用简单的自回归查询来有效地学习时空信息,从而改善了目标跟踪中手动设计组件过多的问题,并设计了新颖的注意力机制来生成当前帧的新查询,最终使用空间 - 时间信息融合模块 - 直接视觉提示用于视觉目标跟踪
提出了一种基于明确视觉提示框架的视觉跟踪方法 EVPTrack,通过利用时空令牌在连续帧之间传播信息,生成明确的视觉提示,从而有效利用时空和多尺度信息,提升了模型的效率和性能。
- P-Age:Pexels 强健时空表观年龄分类数据集
利用视频模型和时空信息,提出 AgeFormer 方法用于年龄分类,有效地应对遮挡、低分辨率和光照等挑战,并通过构建 P-Age 数据集在面部高度遮挡、模糊或掩蔽的情况下,取得比现有基于面部的年龄估计方法更优的结果,同时在 Charades - 面向大场景的具有遮挡感知的时空 Transformer 的分组化
我们提出了一个用于大规模场景中群组检测的端到端框架 GroupTransformer,该框架能够处理大规模场景中多人频繁遮挡的问题,并能有效地利用时空信息。实验结果证明,与现有方法相比,我们的方法在大规模场景和小规模场景上均取得更好的性能。
- MMCHAIN: 探索全球 - 局部时空信息以改进自监督视频哈希
通过对视频进行二进制编码可以提高检索速度并减少存储开销,本文提出了一种新的自监督视频哈希方法,通过对全局时空信息和局部时空细节的学习,生成对于运动、尺度和视点不变的哈希码。实验证明,该方法在四个视频基准数据集上优于现有方法。
- 轻量级循环分组注意力网络用于视频超分辨率
我们提出了一种新颖的轻量级循环分组注意力网络,用于视频超分辨率的研究,实验证明我们的模型在多个数据集上达到最先进的性能。
- InterTracker: 发现和跟踪野外中与手交互的一般对象
通过利用手物互动的时空信息,本研究提出了一种跟踪交互对象的方法,该方法采用了一种基于场景的自适应发现交互对象的空间关系,并利用对象外貌的一致性和连续性跟踪这些对象,研究结果表明该方法优于现有的方法,并能生成更连续的交互对象轨迹。
- 脉冲双流方法与基于无监督 STDP 学习的动作识别
该论文使用卷积脉冲神经网络和无监督的尖突时序依赖性可塑性(STDP)学习规则进行动作分类,并发现卷积脉冲神经网络可成功从视频中提取时空信息,其中的空间和时间流是互补的。
- Dreamix:视频传播模型是通用视频编辑器
该研究提出了一种基于视频扩散模型的图像和视频编辑方法,利用时序信息和高分辨率信息生成与指导文本匹配的视频,并以完全时间关注和时间关注掩码联合完成模型的微调,实现了较好的编辑效果。
- 利用密集时空位置编码追踪目标
提出一种新的范式,使用 transformers 对视频中的目标位置进行编码,该模型 DST (position encoding) 以密集的像素方式编码了空间时间位置信息,并将其与变压器结合以进行多目标跟踪。
- ECCV视频帧插入的感知质量度量
本文提出了一种基于深度学习的感知质量度量方法用于测量视频帧插值结果,通过收集新的视频帧插值质量评估数据集,证明了该方法在视频帧插值结果测量中优于现有的最先进方法。
- ACL在图像之外进行推理的时间和场所
本研究介绍了 TARA 数据集,并探索了基于分段推理的开放式推理问题,结果发现现有模型和人类表现之间存在 70% 的差距。
- ICCV视频识别中压缩序列为一个信息丰富的帧
本文提出了一种信息帧综合(IFS)架构,通过三个目标任务和两个正则化器来生成一个可以用于视频分析的综合框架,并用大规模 Kinetics 数据集进行了广泛的实验。与将视频序列映射到单个图像的基线方法相比,IFS 表现出优越的性能。此外,IF - MM移动领域中的弱信号:十个欧洲城市的汽车共享
本论文研究基于 Web 的数字记录,分析了 10 个欧洲城市中一项主要积极的汽车共享运营商的车辆可用性,并确定了与车辆共享需求变化相关的社会人口和城市活动指标。同时分析了如何预测取车和还车事件,以及如何利用关于车辆可用性的时空信息推断城市的 - 适用于多目标跟踪和分割的原型交叉注意力网络
我们提出了一种名为 PCAN 的新型神经网络,它可以应用于在线多目标跟踪和分割任务,利用空间和时间信息识别、追踪和分割物体,以及学习对比前景和背景原型,并在时间上进行传播。实验表明,该方法在多个数据集上都表现优异。
- 深入研究直接训练更大尺寸的脉冲神经网络
提出了一种基于阈值相关批归一化(tdBN)和空间时间反向传播(STBP)的方法,可直接训练深度脉冲神经网络(SNN),并在神经形态硬件上实现其推理,单次训练达到了 93.15% 的 CIFAR-10 准确率、67.8% 的 DVS-CIFA - MM利用 Inter-intra 对比框架进行自监督视频表示学习
本文提出了一种基于自我监督学习的视频特征表示方法,在传统自我监督学习的基础上通过引入内部负样本来扩展负样本集,从而使单个视频更加充分地表达时空信息,并能够有效地提高视频检索和识别的性能。