身体语言识别与生成的深度多模态学习调查

Aug, 2023

身体语言识别与生成的深度多模态学习调查

A Survey on Deep Multi-modal Learning for Body Language Recognition and Generation

Li Liu, Lufei Gao, Wentao Lei, Fengji Ma, Xiaotian Lin...

TL;DR通过深度多模态学习，本文首次全面探讨了身体语言生成和识别，讨论了现有进展、挑战和未来方向，并为研究人员和从业者提供了有价值的资源。

Abstract

body language (BL) refers to the non-verbal communication expressed through physical movements, gestures, facial expressions, and postures. It is a form of communication that conveys information, emotions, attitu

发现论文，激发创造

使用深度循环神经网络学习人体全身运动与自然语言之间的双向映射

该研究提出了一种使用深度循环神经网络和序列到序列学习学习人体全身运动和自然语言之间双向映射的生成模型，该模型不需要分割或手动特征工程，并学习分布式表示，其结构可以生成逼真的动作或描述.

May, 2017

利用口型线索扩展共同关节手语识别的规模BSL-1K

该研究介绍了解决手语识别数据稀缺的方法，利用自动化技术对英国手语视频进行数据自动提取并训练出状态良好的手语识别模型，该方法对于其他手语语种和基准测试也具有很好的预训练效果，并提供了新的数据集可用于手语识别和位置检测。

Jul, 2020

GENEA挑战赛2022的ReprGesture参赛作品

本文介绍了ReprGesture的自动手势生成系统，该系统利用多模态表示学习生成包括语音节奏在内的合适的手势，并在GENEA挑战赛中取得了不错的成绩。

Aug, 2022

多模态机器学习的基础和趋势：原理、挑战和开放性问题

本文旨在探讨多模态机器学习的计算与理论基础，定义了三个关键原则和六个核心技术挑战，并提出多个未来研究的开放性问题。

Sep, 2022

大规模多模态预训练模型：综述

本文综述了预训练大型多模态模型的背景、任务定义、挑战、优势以及验证方式，并重点讨论了数据、目标、网络结构、知识增强等方面。此外，文章还给出了模型参数和结果的可视化和分析，并指出了未来的可能研究方向。

Feb, 2023

SpeechAct: 从语音生成全身动作

通过使用混合点表示，并结合对比运动学习方法，本研究提出了一种从语音中生成全身动作的模型，以解决现有方法在从语音中生成多样且合理的全身动作时所面临的挑战。

Nov, 2023

生成链：通过级联条件控制多模态手势合成

本研究使用人类语音的多模态信息来改进生成3D手势，通过引入多模态先验作为约束来提高手势生成的质量，采用链式建模方法顺序生成面部融合形状、身体动作和手势，并结合从面部变形中得出的节奏提示和基于语音情感的风格化先验以生成手势，通过引入多模态先验，提高生成手势质量，消除了推断期间昂贵的设置准备的需求，大量实验证实我们的方法达到了最先进的性能。

Dec, 2023

跨模态: 知识蒸馏和屏蔽训练，用于将多模态情感识别转化为单模态，仅有语音的情感识别

本文提出了一种创新的方法，解决了将多模态情感识别模型转化为更实用和资源有效的单模态对应模型的挑战，重点关注仅基于语音的情感识别。

Jan, 2024

SignVTCL: 多模态连续手语识别的视觉-文本对比学习增强

利用多模态数据和语言模型的泛化能力，通过视觉-文本对比学习，提出了一种多模态连续手语识别框架SignVTCL，它整合了视频、关键点和光流等多模态数据，训练了统一的视觉骨干并获得更强大的视觉表示，同时通过视觉-文本对齐方法在词汇和句级别确保视觉特征与手语之间的精确对应，实验结果表明，SignVTCL在三个数据集上取得了领先于之前方法的最新成果。

Jan, 2024

BdSLW60: 一个词汇级别的孟加拉手语数据集

本文介绍了一种新的方法，基于一个全面的Bangla手势词级数据集（BdSLW60），通过在不受约束的自然环境中捕捉手势的动态特性，允许位置和时间上的变化，并允许手势使用者自由更改手势的手的主导性，进而实现手势识别任务。

Feb, 2024