本文提出了一种多模态记忆模型 (M3),利用视觉和文本共享的记忆来建模长期的视觉 - 文本依赖关系并进一步引导全局的视觉注意力,该方法在公开基准数据集上的实验证明,相比于最先进的方法,本文提出的方法在 BLEU 和 METEOR 方面表现较好。
Nov, 2016
本文提出一种基于弱监督学习的多级注意力重建网络(MARN)来实现视频中文本查询的时间定位,该方法又利用注意重建的思想,建立了一个候选时间片段的注意力模型,并利用候选片段和视频句子对进行训练。作者还利用 2D 卷积来提取更可靠的注意力图,并在 Charades-STA 和 ActivityNet-Captions 数据集上进行实验,表明 MARN 优于现有的弱监督方法。
Mar, 2020
我们提出了一种新的方法 Memory-Augmented Recurrent Transformer (MART),它使用记忆模块来增强 Transformer 的结构,以更好地预测下一句话(关于指代和重复),从而鼓励连贯的段落生成。实验证明,MART 生成的段落字幕比基线方法更连贯,更少重复,并保持与输入视频事件的相关性。
May, 2020
本文提出了 Key-Value Memory Networks 应用于多模态设置的方法,以及一种新的键寻址机制,将视频字幕生成问题自然地分解为视觉和语言端,将其作为键 - 值对处理,并在寻址模式下提出了一种递归关注的方法来捕捉语境信息,通过实验发现,这种方法可以提高 BLEU@4,METEOR 得分,并实现了与最先进方法竞争性能。
本文介绍了一种名为多注意力循环网络(MARN)的人类交流理解神经架构,通过使用多注意力块(MAB)的神经组件,MARN 致力于发现和存储影响人际交往的互动,并在多模态情感分析、说话者特质识别和情感识别方面显示出最先进的性能。
Feb, 2018
本文提出了一种基于记忆机制的无监督图像描述模型 —— 循环关系记忆网络 (R2M),相较于 GAN 模型,该方法克服了句子生成中复杂和敏感的对抗学习,并且通过融合和循环两种记忆机制实现了从通用可视化概念到自然语言的翻译;我们在多项基准数据集上的实验证明,R2M 在参数少、计算效率高等各方面均优于目前最先进的技术。
Jun, 2020
本文提出了一种基于多模态循环神经网络的模型,用于生成图像标题,并在四个基准数据集上验证了该模型的有效性。
Dec, 2014
本论文提出了一种循环视频编码方案,可以发现和利用视频的分层结构,并且改善了电影描述数据集的现有技术结果。
本篇文章提出了一种 Motion-Appearance Reasoning Network 模型,结合了时间感知和外观感知的对象特征来更好地推理连续帧之间的活动关系,用于解决时间语句概括问题,实验证明其明显优于现有方法。
Jan, 2022
本文提出了一种重构网络(RecNet)的架构,该网络利用正反两个方向的流动来进行视频字幕生成,其编码器 - 解码器使用正向流产生编码视频语义特征的句子描述,两种类型的重构器则用于回溯流程并重新生成与解码器生成的隐藏状态序列基于的视频特征。实验结果表明,所提出的重构器网络能够提高编码器 - 解码器模型的性能,并显著提高视频字幕准确性。
Mar, 2018