身体语言识别与生成的深度多模态学习调查
该研究提出了一种使用深度循环神经网络和序列到序列学习学习人体全身运动和自然语言之间双向映射的生成模型,该模型不需要分割或手动特征工程,并学习分布式表示,其结构可以生成逼真的动作或描述.
May, 2017
该研究介绍了解决手语识别数据稀缺的方法,利用自动化技术对英国手语视频进行数据自动提取并训练出状态良好的手语识别模型,该方法对于其他手语语种和基准测试也具有很好的预训练效果,并提供了新的数据集可用于手语识别和位置检测。
Jul, 2020
本文介绍了ReprGesture的自动手势生成系统,该系统利用多模态表示学习生成包括语音节奏在内的合适的手势,并在GENEA挑战赛中取得了不错的成绩。
Aug, 2022
本文综述了预训练大型多模态模型的背景、任务定义、挑战、优势以及验证方式,并重点讨论了数据、目标、网络结构、知识增强等方面。此外,文章还给出了模型参数和结果的可视化和分析,并指出了未来的可能研究方向。
Feb, 2023
通过使用混合点表示,并结合对比运动学习方法,本研究提出了一种从语音中生成全身动作的模型,以解决现有方法在从语音中生成多样且合理的全身动作时所面临的挑战。
Nov, 2023
本研究使用人类语音的多模态信息来改进生成3D手势,通过引入多模态先验作为约束来提高手势生成的质量,采用链式建模方法顺序生成面部融合形状、身体动作和手势,并结合从面部变形中得出的节奏提示和基于语音情感的风格化先验以生成手势,通过引入多模态先验,提高生成手势质量,消除了推断期间昂贵的设置准备的需求,大量实验证实我们的方法达到了最先进的性能。
Dec, 2023
本文提出了一种创新的方法,解决了将多模态情感识别模型转化为更实用和资源有效的单模态对应模型的挑战,重点关注仅基于语音的情感识别。
Jan, 2024
利用多模态数据和语言模型的泛化能力,通过视觉-文本对比学习,提出了一种多模态连续手语识别框架SignVTCL,它整合了视频、关键点和光流等多模态数据,训练了统一的视觉骨干并获得更强大的视觉表示,同时通过视觉-文本对齐方法在词汇和句级别确保视觉特征与手语之间的精确对应,实验结果表明,SignVTCL在三个数据集上取得了领先于之前方法的最新成果。
Jan, 2024
本文介绍了一种新的方法,基于一个全面的Bangla手势词级数据集(BdSLW60),通过在不受约束的自然环境中捕捉手势的动态特性,允许位置和时间上的变化,并允许手势使用者自由更改手势的手的主导性,进而实现手势识别任务。
Feb, 2024