具有注意设计的视觉增强预测自编码器 (VAPAAD)
本文提出了一种基于梯度的注意力机制技术,用于解释变分自编码器(VAE)及其预测,该技术通过生成学习到的潜在空间的视觉注意力,可用于图像中异常的定位,并能融入模型训练来帮助改善潜在空间分解,这在 MVTec-AD 和 Dsprites 数据集上表现出了最先进的性能。
Nov, 2019
提出了一种使用变分自编码器和多头注意力机制进行自动异常检测的方法,可以有效地识别和检测出大部分异常情况,同时还解决了绕过现象并引入了一种新的窗口重映射方法。
Sep, 2023
通过引入双向注意力机制、并行解码框架和掩码序列建模方法,设计了一种名为 MAD 的多任务视觉通用模型,用于统一各种视觉任务,实验证明 MAD 在性能和推理效率方面优于自回归模型,并在与任务专用模型相比获得竞争力的准确性。
Mar, 2024
本研究提出了一种基于卷积神经网络的深层视听关注网络(VAANet)来进行用户生成视频中的情感识别,其结果在两个不易的视频情绪识别数据集上均优于现有的方法。
Feb, 2020
本文提出了一种通过建模视频帧和描述概念之间的高阶交互来改善视频描述生成的方法。通过存储先前与之关联的视觉注意力,系统能够决定在已经看过和描述过的内容的基础上看什么并进行描述。这不仅可以实现更有效的局部关注,而且在生成每个单词时可以实现可处理的视频序列的考虑。在具有挑战性和广受欢迎的 MSVD 和 Charades 数据集上的评估表明,所提出的体系结构优于以前的视频描述方法,而无需外部时间视频特征。
Nov, 2016
本文提出了一个基于局部时空分离的有效空间 - 时间注意机制的 Transformer 块,用于视频未来帧预测,并构建了一个全自回归视频未来帧预测 Transformer 框架,另外还提出了一个非自回归视频预测 Transformer 框架,并引入对比特征损失来监督模型预测过程。本文是第一个在不同场景下对这两种基于注意力的视频未来帧预测模型进行正式比较的工作,所提出的模型在性能上与更复杂的现有模型竞争力相当。
Mar, 2022
本研究使用自注意力模块来计算社交和物理上下文情境,采样白噪声,探索了生成模型中注意力的影响,并在 Argoverse 运动预测基准 1.1 上取得了竞争力的单峰结果。
Sep, 2022
提出一种基于结构化概率模型和深度学习的自动编码器框架,能够将高维的视频序列自动地分解成易于预测的低维时序动态,并且无需显式监督,在多个数据集上进行实验表明该方法具有较好的预测能力。
Jun, 2018
该论文介绍了一种基于注意力机制的模型,通过机器翻译和物体检测实现图像内容的自动描述,通过最大化变分下界确定性训练该模型,并展示了该模型在生成输出序列时能够自动学习聚焦于显著物体。三个基准数据集上的性能表现也证明了该模型的有效性。
Feb, 2015
该研究提出了一种新的注意力模型,可以通过多层卷积神经网络的渐进式注意力过程精确地关注各种规模和形状的图像目标。实验证明,与传统的注意力方法相比,在视觉属性预测任务中,所提出的注意力网络效果更好。
Jun, 2016