视频事件关系预测中结构符号表示的辩护
本文提出了一种基于两个图的模型,其中节点对应于演员和物体,边编码不同类型的交互,通过图神经网络在结果混合图上优化演员、物体及其交互的表示,该方法在 Charades 数据集上实现了最先进的效果,用于解决有关视频理解的挑战性任务,如时间动作定位。
May, 2019
本文提出一种新的方法,利用事件的高时空分辨率特性通过空时插值将事件引导具有随机比例因子的视频超分辨率任务。利用空时融合模块、时间滤波模块和空时隐式表示模块将 RGB 帧与事件的特征图结合来完成超分辨率恢复,实验结果表明,该方法显著超过以往技术。
Mar, 2023
使用视觉语义角色标注的新框架,将视频表示为相关事件的集合,引入 VidSitu 基准进行语义角色标注,通过事件 - 事件关系连接事件,研究了视频语义角色标注的挑战性任务,并对数据集进行了全面分析,与其他公开可用的视频理解基准进行了比较,评估了视频识别模型。
Apr, 2021
本文提出了一种叫做 VideoStory 的语义视频表示方法,通过学习来自网络视频和其描述的嵌入来构建整个表示,同时通过多模态可预测性损失来提高描述性和可预测性,并利用术语敏感的描述性损失来识别没有例子的视频事件,从而在视频事件的少量和没有例子的识别方面提高了准确性。
Nov, 2015
本文提出了一种新的深度结构化学习框架,用于事件时间关系提取,其结构包括递归神经网络和结构化支持向量机,通过联合训练两部分模型,采用预训练上下文嵌入,证明了提出的模型的性能明显优于现有的方法,并提供了详尽的削减研究。
Sep, 2019
本文提出一种联合事件 - 时间关系抽取模型,借助于共享表示学习和结构化预测来避免传统管道系统中的错误传递,并在两个基准数据集上将端到端 F1 分别提高了 10%和 6.8%。
Sep, 2019
通过计算谓词和它们的论元的分布式表示,然后使用这些表示来预测原型事件排序,我们的方法从文本中联合估计计算事件表示和模型的排序组件的组合过程参数,证明此方法相较于以往的方法在排序性能方面有明显提升。
Dec, 2013
提出了一种基于 INR 的新型连续时空视频超分辨率(C-STVSR)框架,通过事件相机捕捉全局依赖性和区域运动,利用时空嵌入捕捉长期依赖性,从而提高视频分辨率和帧率。
May, 2024
通过利用主体动态场景图表示了视频的细粒度空间语义和时间动态,建立了一个主题定位的视频语义角色标注框架,通过场景 - 事件映射机制优化整体结构表示,实现了 VidSRL 的三个子任务的联合解码,并在基准数据集上显著提升了性能。
Aug, 2023
利用网络爬取的大规模视频 - 文本对数据作为弱监督,视频理解模型的能力在事件层面的差异中辨别和理解细粒度事件方面仍存在问题,通过提出 SPOT Prober 方法并进行实验证明,通过将操作后的事件描述插入作为难负样本能有效增强模型对事件理解的能力。
Nov, 2023