时序中的符号：将人体动作编码为时间图像

Aug, 2016

时序中的符号：将人体动作编码为时间图像

Signs in time: Encoding human motion as a temporal image

Joon Son Chung, Andrew Zisserman

TL;DR论文提出了一种图像编码方法，将人体运动在视频序列中的姿态信息简洁地表示为一列，以适合使用 ConvNet 进行学习，应用于英国手语视频中识别和定位手势，仅使用弱（片段级）监督和大量标签噪声训练，可学习出仅有 10 帧持续时间的手势。

Abstract

The goal of this work is to recognise and localise short temporal signals in image time series, where strong supervision is not available for training. To this end we propose an image encoding that concisely represents human motion in a video sequence in a form that is suitable for lea

image time series human motion convnet british sign language weak supervision

发现论文，激发创造

一种基于 Transformer 的对比学习方法应用于少样本手语识别

本研究提出了一种新的基于对比学习的变形注意力模型，该模型能够从身体关键点序列中学习丰富的表示，用于手语分类和翻译任务，并通过实验证明其可以推而广之。

Apr, 2022

读和参与：手语视频中的时间定位

利用 Transformer 模型，对连续的手语视频进行训练并输出 Written Tokens，从而实现手语序列中一大量手语的定位，生成大量手语词汇的注释，训练后实现 BSL-1K 标志语言识别基准测试中先前的最佳性能。

Mar, 2021

利用人体姿态估计实时识别手语

提出了一种轻量级的实时手语检测模型，该模型使用基于人体姿态估计的光流特征，并使用线性分类器对其进行了评估，证明其准确性达到了 80％。将递归模型直接应用于输入时，准确率提高了至多 91％，而仍然在 4ms 内运行，由此展示了其在视频会议应用中的使用可能性。

Aug, 2020

空间 - 时间图卷积神经网络用于手语识别

提出了一种基于人类骨骼运动的时空图卷积网络的手语识别方法，使用图来捕捉手语在二维空间和时间上的动态，并提供了一个新的 ASLLVD 人体骨架手语数据集以供未来的相关研究。

Jan, 2019

通过骨架图像表示增强巴西手语识别

通过提取身体、手部和面部关键点并将其编码为 2D 图像，本研究提出了一种孤立手语识别（ISLR）方法，通过卷积神经网络映射视觉和时间信息到手语标签，实验证明该方法在两个广为认可的巴西手语（LIBRAS）数据集上的性能指标超过了现有技术。此外，由于依赖于更简单的网络架构和仅使用 RGB 数据作为输入，本方法更准确、更高效且更易于训练。

Apr, 2024

自监督空间 - 时间一致性的手语识别的表征学习

通过自我监督对比学习框架，从两个不同角度挖掘富含上下文的手势姿势数据的时空一致性，并学习用于手势识别的实例辨别表示，以提高性能。

Jun, 2024

信号提取：多模态活动识别中的判别信号编码

该研究提出了一种支持多种传感器模态的简单、有效和灵活的动作识别方法，将多元信号序列编码成图像，并使用最近提出的 EfficientNet CNN 架构进行分类，实验结果表明该方法在多个数据集上的表现均优于目前的激光雷达数据集识别方法。

Mar, 2020

SignMusketeers：大规模手语翻译的高效多流方法

基于影像及语言学特性，本研究提出了一种有效且高效的学习手语表示的方法，专注于手势视频中的脸部、手部和身体姿态，并通过自监督学习的方式学习手语中复杂的手形和丰富的面部表情，实现对手语翻译的新突破。

Jun, 2024

用于人物识别的步态特征自动学习

该研究旨在利用卷积神经网络从低级运动特征（如光流分量）学习高级描述符，并以此实现视频中人的识别。实验证明，将光流的时空块作为卷积神经网络的输入数据，可以以比以往更低的图像分辨率（即 80x60 像素）获得最先进的步态识别效果。

Mar, 2016

使用相关网络进行连续手语识别

提出一种卷积神经网络 CorrNet 来识别手语，并结合当前帧和相邻帧之间的人体轨迹，从而捕捉视频中人体动作的局部时空特征，进而在大型数据集中获得最先进的准确率。

Mar, 2023