基于帧聚合和多模态融合的视频人员识别框架

MMOct, 2020

基于帧聚合和多模态融合的视频人员识别框架

Frame Aggregation and Multi-Modal Fusion Framework for Video-Based Person Recognition

Fangtao Li, Wenzhe Wang, Zihe Liu, Haoran Wang, Chenghao Yan...

TL;DR通过 Frame Aggregation and Multi-Modal Fusion framework 框架，将注意力机制引入 NetVLAD 模块进行视频内的人物识别，同时引入了 Multi-Layer Multi-Modal Attention 模块进行多模态相关性建模，实验结果表明该方法优于其他现有方法。

Abstract

video-based person recognition is challenging due to persons being blocked and blurred, and the variation of shooting angle. Previous research always focused on person recognition on still images, ignoring similarity and continuity between video frames. To tackle the challenges above,

video-based person recognition frame aggregation and multi-modal fusion framework netvlad attention mechanism multi-layer multi-modal attention module

发现论文，激发创造

视频人脸识别特征聚合网络

本文提出了一种基于元注意力聚合的方法来学习视频紧凑表示以实现视频人脸识别任务，并对其进行了实验验证和性能比较。

May, 2019

基于多粒度参考引导的注意力特征聚合技术用于基于视频的人员重识别

提出一种名为 MG-RAFA 的关注特征汇聚模块，用于将空间 - 时间特征精细地聚合成具有判别性的视频级别特征表示，采用全局视图与卷积操作学习关注，并基于不同粒度的关系学习多粒度关注，实现了视频 ReID 任务上的最新成果。

Mar, 2020

在线视频多模态人员搜索

本文提出了一种在线人员搜索框架，它采用多模态记忆库作为人员识别的基础，并通过强化学习获得策略进行动态更新。实验结果表明，该方法不仅实现了在线模式下的显著改进，而且胜过了离线方法。

Aug, 2020

基于时间特征对齐与互信息最大化的基于视频的人体姿态估计

本研究提出一种分层对齐框架，对多帧人体姿态估计问题进行了深入研究，利用视觉证据、知识提取和互信息等方法，在 PoseTrack2017、Sub-JHMDB 和 Pose-Track2018 等数据集上取得了最先进的性能表现。

Mar, 2022

聚合帧级特征用于大规模视频分类

该研究介绍了在大规模 YouTube-8M 数据集上定义的多标签分类问题的系统的开发，其中使用了多种技术来聚合提供的帧级特征表示并生成视频级预测，包括多种变体的循环神经网络和广义 VLAD，以及多种融合策略来探索模型间的互补性。在官方指标 GAP@20 中，我们最佳的融合模型在公共测试数据的 50% 上达到了 0.84198，在私人测试数据的 50% 上达到了 0.84193，在 650 支队伍中排名第 4。

Jul, 2017

视频广告理解的多模态框架

该论文介绍了一种利用多模态技术实现广告视频内容结构化分析的系统，包括场景分割和多模态标记两个任务，通过视觉和文本特征相结合的方法，在 2021 年 TAAC 竞赛中获得了 0.2470 的高得分。

Aug, 2021

大规模视频分类中多模态融合的良好实践

通过多模数据融合与双线性池化结合，实现音视频表达融合，在视频分类等大规模多媒体处理上显著优于简单融合方法，并在 Youtube-8M v2 数据集上进行了验证。

Sep, 2018

基于逐帧运动和外观的实时多目标跟踪

本文提出了一种高效的深度神经网络方法 ——FMA，计算两个视频帧之间的 Framewise Motion Fields，并对大量对象的边界框进行快速可靠匹配，同时实现 Frame-wise Appearance Features 的学习，以达到实时多目标跟踪并取得与现有最先进方法相竞争的结果。

May, 2019

MVFNet: 高效视频识别的多视角融合网络

本文提出了一种基于 2D CNN 骨干网络的新的多视图融合（MVF）模块，用于视频动作识别中的时空建模，并利用可分离卷积实现了高效处理，实验结果表明，该方法在不降低识别精度的情况下降低了模型复杂度。

Dec, 2020

人员再识别：基于循环特征聚合的方法

本文提出一种基于 LSTM 网络的逐步 / 顺序融合框架的人物重新识别方法，利用一系列追踪人体区域 / 补丁的全局判别特征表示产生序列级别的高度区分人类特征表示，并在两个人物重新识别基准测试上取得了良好的效果

Jan, 2017