具有注意设计的视觉增强预测自编码器 (VAPAAD)

Apr, 2024

具有注意设计的视觉增强预测自编码器 (VAPAAD)

Vision Augmentation Prediction Autoencoder with Attention Design (VAPAAD)

Yiqiao Yin

TL;DR我们提出了一种名为 VAPAAD 的注意力设计视频增强预测自编码器模型，该模型通过集成注意力设计提高了预测性能，能够对视频序列中的时间动态进行细致的理解和处理，通过使用著名的 Moving MNIST 数据集展示了所提模型的强大性能和在文献中的潜在适用性。

Abstract

Despite significant advancements in sequence prediction, current methods lack attention-based mechanisms for next-frame prediction. Our work introduces →

sequence prediction attention-based mechanism next-frame prediction vapaad video sequences

发现论文，激发创造

探索可变自编码器的可视化解释

本文提出了一种基于梯度的注意力机制技术，用于解释变分自编码器（VAE）及其预测，该技术通过生成学习到的潜在空间的视觉注意力，可用于图像中异常的定位，并能融入模型训练来帮助改善潜在空间分解，这在 MVTec-AD 和 Dsprites 数据集上表现出了最先进的性能。

Nov, 2019

MA-VAE：基于多头注意力的变分自编码器方法用于汽车耐久性动力系统测试中的异常检测

提出了一种使用变分自编码器和多头注意力机制进行自动异常检测的方法，可以有效地识别和检测出大部分异常情况，同时还解决了绕过现象并引入了一种新的窗口重映射方法。

Sep, 2023

掩蔽自动编解码器是一种有效的多任务视觉通才

通过引入双向注意力机制、并行解码框架和掩码序列建模方法，设计了一种名为 MAD 的多任务视觉通用模型，用于统一各种视觉任务，实验证明 MAD 在性能和推理效率方面优于自回归模型，并在与任务专用模型相比获得竞争力的准确性。

Mar, 2024

用户生成视频情感识别的端到端视听注意力网络

本研究提出了一种基于卷积神经网络的深层视听关注网络（VAANet）来进行用户生成视频中的情感识别，其结果在两个不易的视频情绪识别数据集上均优于现有的方法。

Feb, 2020

视频的记忆增强式注意力模型

本文提出了一种通过建模视频帧和描述概念之间的高阶交互来改善视频描述生成的方法。通过存储先前与之关联的视觉注意力，系统能够决定在已经看过和描述过的内容的基础上看什么并进行描述。这不仅可以实现更有效的局部关注，而且在生成每个单词时可以实现可处理的视频序列的考虑。在具有挑战性和广受欢迎的 MSVD 和 Charades 数据集上的评估表明，所提出的体系结构优于以前的视频描述方法，而无需外部时间视频特征。

Nov, 2016

VPTR 视频预测的高效 Transformer

本文提出了一个基于局部时空分离的有效空间 - 时间注意机制的 Transformer 块，用于视频未来帧预测，并构建了一个全自回归视频未来帧预测 Transformer 框架，另外还提出了一个非自回归视频预测 Transformer 框架，并引入对比特征损失来监督模型预测过程。本文是第一个在不同场景下对这两种基于注意力的视频未来帧预测模型进行正式比较的工作，所提出的模型在性能上与更复杂的现有模型竞争力相当。

Mar, 2022

探索注意力 GAN 用于车辆运动预测

本研究使用自注意力模块来计算社交和物理上下文情境，采样白噪声，探索了生成模型中注意力的影响，并在 Argoverse 运动预测基准 1.1 上取得了竞争力的单峰结果。

Sep, 2022

学习将表示分解和解缠以进行视频预测

提出一种基于结构化概率模型和深度学习的自动编码器框架，能够将高维的视频序列自动地分解成易于预测的低维时序动态，并且无需显式监督，在多个数据集上进行实验表明该方法具有较好的预测能力。

Jun, 2018

使用视觉注意力的神经图像字幕生成

该论文介绍了一种基于注意力机制的模型，通过机器翻译和物体检测实现图像内容的自动描述，通过最大化变分下界确定性训练该模型，并展示了该模型在生成输出序列时能够自动学习聚焦于显著物体。三个基准数据集上的性能表现也证明了该模型的有效性。

Feb, 2015

视觉属性预测的渐进式注意力网络

该研究提出了一种新的注意力模型，可以通过多层卷积神经网络的渐进式注意力过程精确地关注各种规模和形状的图像目标。实验证明，与传统的注意力方法相比，在视觉属性预测任务中，所提出的注意力网络效果更好。

Jun, 2016