PatchBlender:视频 Transformer 的动作先验
构建 3D 人体动作与语言之间的跨模态潜空间对于获取大规模高质量的人体动作数据至关重要,然而,与图像数据的丰富相比,动作数据的稀缺限制了现有动作语言模型的性能,为了解决这个问题,我们介绍了 “动作补丁” 的新表示方法,并通过迁移学习,提出使用视觉变换器(ViT)作为动作编码器,旨在从图像域中提取有用的知识并应用于动作域,我们发现通过使用训练 2D 图像数据获得的 ViT 的预训练权重进行迁移学习可以提高动作分析的性能,为解决有限动作数据的问题提供了一个有希望的方向,我们广泛的实验证明了所提出的动作补丁与 ViT 的联合使用在文本到动作检索以及其他新颖的具有挑战性的任务中取得了最先进的性能,例如跨骨架识别、零样本动作分类和人体交互识别,这些任务目前由于数据缺乏而受到限制。
May, 2024
本文介绍 ConvMixer 模型,它使用标准卷积来混合图像块,并在类似参数计数和数据集大小的情况下胜过 ViT、MLP-Mixer 和一些变种,同时也优于经典的 ResNet 等视觉模型。
Jan, 2022
本研究提出了 Deformable Video Transformer,利用动态预测小型视频数据块,根据运动信息决定模型在哪里观察视频,并优化变形注意机制,以获得更高的精度和更低的计算成本。
Mar, 2022
通过引入一种新颖的 CNN 模型 ——PatchMixer,我们解决了 Transformer 模型在时间序列预测任务中面临的挑战,该模型具有可以保留时间信息的排列不变自注意力机制。与传统 CNN 不同的是,我们的方法仅依赖于深度可分离卷积,可以在单一尺度的结构中提取局部特征和全局相关性。试验结果表明,与现有最先进的方法和表现最佳的 CNN 相比,PatchMixer 相对提升了分别为 3.9%和 21.2%,而且速度是最先进方法的 2-3 倍。我们将发布我们的代码和模型。
Oct, 2023
我们提出了一种新的模式转换器 (Pattern Transformer),通过卷积神经网络从输入图像中提取各种模式,将每个通道表示为一个独特的模式,并将其作为视觉令牌输入到后续的 Transformer 模型中,从而实现对图像的自适应转换。在 CIFAR-10 数据集和 CIFAR-100 数据集上,我们通过仅使用通用 ResNet 和 Transformer 模型,取得了最新的性能,并在 ImageNet 上取得了优异的结果。
Aug, 2023
在点云学习领域中,由于 Transformer 模型生成的注意力矩阵具有输入规模的平方复杂度,因此本文提出了一种采用自适应方式学习较小基础上的基础并通过它们的带权求和来计算注意力矩阵的方法 (PAT),并借助于轻量级的多尺度注意力块(MST)来实现对不同尺度特征的关注,最终构建了一个名为 PatchFormer 的神经网络,为点云学习提供了可比较的准确性,并且比以前的点 Transformers 快 9.2 倍。
Oct, 2021
通过 PatchMatch 和 Transformers 模型将动态纹理从视频传递到静态图像的简单而有效的方法。首先,使用基于 PatchMatch 算法的距离映射引导纹理传递模块合成目标视频的起始帧。然后,将合成图像分解为与其对应的结构无关的补丁,利用配备有 VQ-VAE 的 Transformers 处理长离散序列来预测后续补丁。最后,应用高斯加权平均合并策略将所有补丁平滑地组装成目标风格化视频的每一帧,实验证明了该方法在动态纹理传递方面的有效性和优越性。
Feb, 2024
提出了一种用于减少 Vision Transformers 计算复杂度的简单方法,通过选择和处理最有信息的小片段,我们将二维人体姿态估计网络的结果作为指导进行小片段的选择,实验结果表明这种方法在显著提高速度和减少计算复杂度方面非常有效,而且性能略微下降。
Jun, 2023
提出了一种新型的 Deformable Patch(DePatch)模块,可以自适应地将图像分割为具有不同位置和比例的补丁,从而更好地保留了补丁中的语义信息。将该模块加入 Transformer 中,在图像分类和目标检测等任务上进行广泛评估。
Jul, 2021
该论文通过挖掘网络中的冗余计算研究视觉变换器的效率问题,并提出了一种新颖的修剪方法来减少计算成本,该方法称为修剪补丁法,可以移除无用的补丁,从而显著降低模型的计算成本,而不会影响模型的性能。
Jun, 2021