时间建模的近似双线性模块
本文中,我们提出了一种基于时间序列二次双线性变换的新型 Temporal Bilinear 模型以捕获邻近帧之间的时间序列特征交互,通过在线性复杂度下利用分解的双线性模型和瓶颈网络设计来构建我们的 TB 块,在包含 TB 块和 2D 空间卷积的两种方案中进行了实验比较,在多个广泛采用的数据集上进行了实验证明了我们方法的有效性。
Nov, 2018
通过计算加法、减法、乘法和除法等四种算术运算,提取帧特征产生辅助时间线索,利用这些线索从原时间无关域中提取对应特征,从而实现简化的时间建模。我们的研究表明,这种算术时间模块 (ATM) 在低计算成本下提供了强大的时间建模能力,并且与基于 CNNs 和 ViTs 的架构兼容,在几个常见视频基准测试上取得了优越的性能。
Jul, 2023
该论文通过使用时态点过程和变分自编码器提出了一种无需人工边缘指定的模型,学习推断节点间的时间关注力,从而具有更大的灵活性和更好的性能,用于动态链接预测任务。
Sep, 2019
该研究提出了一种新的时间自适应模块(TAM),可生成基于其自身特征图的视频特定时间核,采用独特的两级自适应建模方案,通过将动态核解耦为位置敏感重要性地图和位置不变聚合权重,从本地时间窗口中学习重要性地图以捕捉短期信息,从全局视图中生成聚合权重,并成功应用于 TANet 架构中,从而实现卓越的性能表现。
May, 2020
提出了一种新的空时金字塔网络,将空间和时间特征以金字塔结构融合,从而加强彼此。使用紧凑的双线性运算符实现高效训练的双线性融合操作,最终网络在标准视频数据集上取得了最先进的结果。
Mar, 2019
本研究通过设计渐进式增强模块(PEM)和创建时间多样性损失(TD Loss)两种方法,以解决将 2D CNN 应用于视频分析中出现的重复和冗余信息利用问题,并在 Something-Something V1 和 V2 等基准时间推理数据集上取得 2.4%和 1.3%的性能改进,同时在大规模数据集 Kinetics 上也 witness 了超过基于 2D-CNN 的现有技术的性能提升。
Jul, 2020
本研究提出一种基于未整理视频的无监督时间建模方法,使用多速率视觉循环模型对视频的每一帧进行编码,通过过去和未来相邻的视频片段作为时间上下文,重构两个时间转换以反映不同视图中的时间信息。将该方法应用于复杂事件检测和视频字幕生成中,其在 MEDTest-13 数据集上相对提高了 10.4%,在 YouTube2Text 数据集中的表现达到了最佳水平。
Nov, 2016
该论文介绍了我们的解决方案,用于 Google Cloud 和 YouTube-8M 视频理解挑战的视频识别任务,我们通过各种时间建模方法对帧级特征进行聚合以提高多标签视频识别的准确性,并在 Kaggle 的公共测试集上取得了 82.75% 的性能提升。
Jul, 2017
这篇论文介绍我们在 ActivityNet Kinetics 挑战赛中获得第一名的视频识别任务的解决方案。我们使用 DevNet 框架进行特征提取,然后使用四种不同的时间建模方法,在 Kinetics 数据集上取得了显著的表现提升。
Aug, 2017
该文章提出了一种用于视觉任务的 MoNet 结构,它使用了二阶池化的双线性池化方法并通过子矩阵平方根层来解决维度问题,结合矩阵规范化和其他阶信息,实验结果表明,MoNet 在三个公开的图像分类数据集上表现良好,可实现与具有比其 96% 更少维度的编码特征相当的性能。
Feb, 2018