基于多模式深度学习的图像识别技术研究

May, 2024

基于多模式深度学习的图像识别技术研究

Research on Image Recognition Technology Based on Multimodal Deep Learning

Jinyin Wang, Xingchen Li, Yixuan Jin, Yihao Zhong, Keke Zhang...

TL;DR利用深度神经网络研究了人类多模态行为识别算法，通过整合不同的深度神经网络对不同模态的视频信息进行适应以成功识别多个模态的行为，利用微软 Kinect 开发的多个摄像头采集传统图像并提取运动特征，将两种方法识别出的行为特征综合起来以实现行为的准确识别与分类，实验结果表明该算法在识别行为和检测视频素材中的行人行为的准确度上有显著提升。

Abstract

This project investigates the human multi-modal behavior identification algorithm utilizing deep neural networks. According to the charact

human multi-modal behavior identification deep neural networks behavior identification motion features pedestrian behaviors

发现论文，激发创造

视频人体动作识别中的深度神经网络：综述

本篇论文研究了基于视频的人体行为识别任务，通过比较现有的深度学习框架（尤其是视频动作识别的表现）和机器学习框架，提出了多项新颖的研究方案。

May, 2023

基于 RGB-D 和深度学习的人体动作识别：一项综述

本文综述了近年来在 RGB-D 基础上的人体运动识别中，采用深度学习方法中卷积神经网络和循环神经网络的应用，通过四类方法（基于 RGB、基于深度、基于骨骼、基于 RGB+D）来探讨现有技术的优缺点，特别是强调了应用于视频序列固有的时空结构信息的编码方法，以及未来的研究方向。

Oct, 2017

多模态数据中的人类动作识别：一篇综述

本文综述了基于不同数据形式的深度学习方法在人类动作识别方面的应用以及涉及 co-learning 和融合等技术，并对多个基础数据集进行了实验比较研究与探讨未来研究方向。

Dec, 2020

RGB+D 视频中的行为识别深度多模态特征分析

本文提出一种新的深度自编码器共享特定特征分解网络，将多模态信号分解成一系列组件，进而结合特征结构提出了一种结构化稀疏学习机以获得更好的分类性能，实验证明该方法在动作识别方面最先进。

Mar, 2016

视频数据中人类行为识别的深度学习方法

通过对深度学习模型的全面分析，这项研究揭示了卷积神经网络、循环神经网络和两流卷积神经网络在人体动作识别中的优势和性能差异，并强调了综合模型在实现强大的人体动作识别方面的潜力和优化的研究方向。

Mar, 2024

三流网络用于增强动作识别

该论文提出了两种基于 CNN 的体系结构，包括三种流，可以分别捕捉不同速率的空间和时间信息，并使用双向 LSTM 和注意力机制进一步提高模型性能，实现了人类动作识别任务的最先进表现。

Apr, 2021

跨域多模态 RGB-D 场景识别

本文提出了一种自适应景观识别方法，该方法使用 RGB 和深度图像之间的自监督转换，以解决多模态数据集之间的领域转移问题，并证明其在不同相机采集的数据之间具有很强的泛化能力。

Mar, 2021

一个基于混合深度学习框架的视频分类多模态信息建模模型

本文研究如何利用多模态线索来改进视频分类。我们提出了一个混合的深度学习框架，它将静态空间外观信息、短时间内的运动模式、音频信息以及长时序动态性等多个模态的线索集成起来，以捕捉它们之间的关系，并通过多次实验表明，该框架可以提高视频分类的准确度。

Jun, 2017

基于 CNN 的视频动物行为识别与姿态估计：综述

本研究概述了基于卷积神经网络体系结构的人类动作识别和姿态估计方法，并将其用于动物行为分类的技术进化及其架构适应性的分析。

Jan, 2023

利用良好特征和多层感知器网络的人类动作识别系统

本文提出了一种新的方法，使用良好特征和迭代光流算法来计算特征向量，并使用多层感知器（MLP）网络进行分类，最终通过优化多层感知器网络的各种参数来提高系统准确性，从而解决了实时识别与跟踪人类动作的问题。

Aug, 2017