- ViD-GPT:在视频扩散模型中引入 GPT 风格的自回归生成
利用巨大语言模型和 GPT,我们将因果生成引入视频扩散模型中,通过引入因果时序注意力和以帧为提示的设计,我们提出了 Video Diffusion GPT(ViD-GPT),能够在生成每个时刻的帧时获取来自之前所有生成帧的长期上下文。通过引 - MotionClone:无需训练的可控视频生成运动克隆
MotionClone 是一个无需训练的框架,通过时间注意力机制从参考视频中克隆运动以控制文本到视频生成,同时引入了区域感知的语义引导机制提升生成模型的空间关系和随机应变能力,实验结果显示 MotionClone 在全局摄像机运动和局部目标 - Motion-I2V: 显式运动建模的一致且可控的图像到视频生成
Motion-I2V 是一个用于生成一致且可控的图像到视频的新型框架,通过显式的运动建模将图像到视频分解为两个阶段。
- 面向多模态生成的生成人工智能系统影响
对新兴的多模态文本到图像和文本到视频工作负载进行深入的系统性能表征是设计高效和可部署系统的关键第一步。
- 眼睛与人工智能:视频记忆中的人眼注视与模型关注
通过使用基于 Transformer 的模型结合了时空注意机制,我们研究了影响视频记忆性的语义和时间注意机制,并对一个大型自然主义视频数据集上的视频记忆性预测任务表现进行了比较。结果显示模型的注意力与人类凝视的密度图表现出相似的模式,并且模 - 基于特征表示的顺序注意力源识别
提出了一种基于序列到序列的方法 TGASI,采用归纳学习思想以区分不同时间戳中不同预测源的重要性,并通过设计的时间注意机制来提高在不同场景下源定位的准确性和可扩展性。
- ControlVideo:为一键式文本到视频编辑增加有条件的控制
本文提出了 ControlVideo,一种基于文本指导的视频编辑方法,通过结合文本到图像扩散模型和 ControlNet,优化视频的保真度和时间一致性以与给定文本对齐,并使用复杂设计策略在源视频的关键帧和时间注意力上进行微调,量化结果证明了 - TAPE:基于时间注意力的概率人体姿态和形状估计
该研究提出了一种基于时间注意力的概率人体姿势和形状估计方法(TAPE),通过对一段视频进行编码并使用概率分布输出估计的人体姿势,相比于其他方法在标准基准测试中表现更好。
- IJCAI利用时间对抗性增强提高视频表现
本研究提出了一种新的视觉增强技术 (Temporal Adversarial Augmentation), 该技术利用时间关注,通过最大化与时间相关的损失函数来移动神经网络的注意力分布,实现神经网络对于视频剪辑的视角多样化,增强了神经网络的 - AAAI基于可解释深度学习技术的在线广告成本预测:竞价竞争环境中的洞见
本文研究使用多种时序预测方法,通过竞争对手 CPC 发展的时间序列聚类识别得出外部影响变量,建立多变量模型来预测在线广告市场日均点击成本。研究表明,这种预测广告成本的方法比仅基于广告主收集数据的模型更具优势。
- 基于 Poincaré 异质图神经网络的序列推荐
本文提出了一种名为 PHGR 的 Poincaré 异构图神经网络,用于同时建模顺序模式信息和 SR 场景数据中包含的层次信息。 PHGR 通过定义新的双曲内积运算符,直接在 Poincaré 球中进行全局和局部图表示学习,而不是在 Poi - CVPRStyle-ERD: 灵敏且连贯的在线动态风格迁移
该研究论文提出了一种针对在线动画应用的高效灵活的运动风格转移方法,使用一种新的样式转移模型:Style-ERD,该模型具有 Encoder-Recurrent-Decoder 结构和新的关注机制,可以将动作样式化成多个目标样式。相较于离线处 - ACL语言模型的时间注意力
该研究提出了一种时间感知的自注意力机制 —— 时间注意力,用于任何基于变形器模型的预训练语言模型中,以捕捉上下文中的时间信息,并应用于语义变化检测任务,在三个不同语言的数据集上取得最先进的结果。
- 利用时间注意力在网格化简空间中预测物理
本文提出一种基于图的下一步预测模型,采用了一种类 Transformer 的时序关注模型来捕捉长期的依赖关系,利用编码器 - 解码器结构来总结特征和创建系统状态的紧凑网格表示,并在几个复杂的流体力学预测任务中优于竞争性 GNN 基线,可以帮 - 基于时间的代理注意力机制的剧集化多智能体强化学习中的奖励再分配
本文提出了一种称为 AREL 的多智能体强化学习技术,它使用注意机制来解决多智能体强化学习中的两大挑战:时间分配和智能体关注。AREL 可以预测密集的重新分配奖励,并可与任何给定的多智能体强化学习算法集成。在实验中,AREL 相比其他三种最 - CVPR视频手语识别跨领域知识传递
提出一种从互联网字幕手语新闻中学习转移知识的方法来克服手语物标数据稀缺和领域差异问题,该方法使用基于并联视觉概念和识别模型的特征对齐和记忆降低领域专有特征,得到了在手语识别方面的最新性能。
- ST-GRAT:一种新颖的时空图注意力网络,用于准确预测动态变化的道路速度
该论文提出了一种新的模型 ST-GRAT,通过空间和时间注意力以及哨兵向量的使用,能够更有效地捕捉道路网络中的时空动态,并且在交通速度快速变化的困难条件下表现出色。
- ICCV将时间和空间注意力融合在 VATEX 视频字幕挑战 2019 中
该论文提出了一种用于视频字幕生成的模型,该模型在时间和空间上均考虑了注意力机制,并通过后期融合策略将这两种机制结合起来,从而显著提高了生成字幕的性能,达到了 73.4 的 CIDEr 得分,并在 VATEX 视频字幕生成挑战赛上获得第二名。
- 基于时间注意力机制的视频行人属性识别方法
本研究提出了一种基于视频的多任务模型与时间注意策略相结合的新网络结构,解决行人属性识别方面的挑战。同时,本文还公开发布了两个新的大规模视频数据集,用于展示该方法的有效性。
- 连续关注下理解和优化循环网络用于人类活动识别
本文提出了两种基于注意力机制的深度神经网络模型,并添加连续性约束条件来提高模型的可理解性和精度,最终在三个数据集上获得了最新的结果,详细定性分析表明这些注意力机制与人类直觉相吻合。