多尺度自适应基础模型用于时空物理系统
本文介绍了一种新颖的分层时空方向表示,用于时空图像分析,并将多层ConvNets的优点与更可控的时空分析方法相结合。它的一些关键方面是无需学习,采用理论推导进行设计,并具有循环性质、交叉通道特征汇集和层级结构。它在动态纹理识别方面性能表现优异。
Aug, 2017
提出了一个物理感知元学习的框架,该框架利用偏微分方程独立的知识并利用空间模块来适应有限的数据,从而缓解了元学习需要大量真实世界任务的需要,以模拟数据为基础进行元初始化,并在合成和真实世界的时空预测任务中展示了其卓越的性能表现。
Jun, 2020
本文通过对四个最新的基于图像的视角的统一,提出了一种可以很好地概括所有这些方法的简单目标,该目标鼓励同一视频中的时间持久特征,在不同的无监督框架、预训练数据集、下游数据集和骨干架构中效果惊人,我们从该研究中得出了一系列有趣的观察结果,例如,即使时间跨度为60秒,鼓励长时间持久性也可以很有效。
Apr, 2021
本文研究了时空预测学习方法,提出了一种通用框架,其中空间编码器和解码器捕获帧内特征,中间的时间模块捕获帧间相关性。我们提出了一种时间注意力单元(TAU)以并行化时间模块,并引入新的差异散度正则化以考虑帧间变化。广泛的实验证明,该方法使得模型在各种时空预测基准测试上具有竞争性能。
Jun, 2022
本文提出了一种通过利用视觉数据中的空间稀疏性进行模型加速的新方法,该方法基于所提出的动态令牌稀疏化框架,并通过自适应和不对称计算等方式推广到各种体系结构中,通过对不重要的特征使用轻量级快速路径和对更重要位置使用更具表现力的慢速路径,可以显著减少总体计算量,实验结果表明动态空间稀疏化为模型加速提供了新的更有效的解决方案。
Jul, 2022
本文提出一种Temporal Patch Shift(TPS)方法,用于在transformer模型中对视频进行高效的三维自注意力建模,可插入到现有的二维transformer模型中以增强时空特征学习,该方法在计算和内存成本上比现有方法更加高效,同时在Something-something V1&V2、Diving-48和Kinetics400上取得了与最先进水平相当的性能。
Jul, 2022
提出了一种可解释学习有效动力学(iLED)框架,通过融合Mori-Zwanzig和Koopman算子理论,实现与循环神经网络模型相当准确度的建模和仿真,具备可解释性,适用于解决高维度多尺度系统。
Sep, 2023
基于历史序列预测未来序列的时空预测学习提供了一种自监督学习范式,主流方法利用循环单元进行建模,但循环单元的并行性不足,常常在现实场景中表现欠佳。为了在保持计算效率的同时提高预测质量,我们提出了一种创新的三元注意力变换器,在设计上捕捉了帧间动态与帧内静态特征。通过将Triplet Attention Module (TAM) 整合到模型中,我们取代了传统的循环单元,并对时空和通道维度中的自注意力机制进行了深入探索。在这种配置下:(i) 时序标记包含了帧间的抽象表示,有助于捕捉固有的时序依赖性;(ii) 空间和通道的注意力结合,通过在空间和通道维度上进行细粒度交互来改进帧内表示。交替运用时序、空间和通道级别的注意力使得我们的方法能够学习更复杂的短程和长程时空依赖关系。广泛的实验表明,我们的方法在移动物体轨迹预测、交通流预测、驾驶场景预测和人体动作捕捉等多种场景下性能超过了现有的基于循环和非循环方法,达到了最先进水平。
Oct, 2023
本文提出了一种新颖的方法,即Spatial Adaptation and Temporal Coherence (SATeCo),用于视频超分辨率的空间适应和时间一致性,通过学习低分辨率视频的空间-时间指导,实现高分辨率视频去噪和像素级视频重建的校准。在预先训练的UNet和VAE中,通过两个经过精心设计的空间特征适应(SFA)和时间特征对齐(TFA)模块的优化,实现了SFA对帧特征进行调节,通过自适应估计每个像素的仿射参数,确保高分辨率帧合成的像素级指导;而TFA通过自注意力机制深入分析3D局部窗口(小管)内的特征交互,并在小管和低分辨率对应物之间执行交叉注意力,以指导时间特征对齐。在REDS4和Vid4数据集上进行的大量实验验证了我们方法的有效性。
Mar, 2024
本文解决了传统深度学习模型在理解和预测时空动态方面的可解释性和物理规律遵循的问题。提出了一种基于保护理论的图神经网络(CiGNN),能够在有限训练数据下有效学习时空动态,并依靠对称性遵循一般保护法则。研究结果表明,CiGNN在多种时空系统中展示了卓越的准确性和泛化能力,且能够广泛应用于复杂几何空间的时空动态预测。
Dec, 2024