SignVTCL: 多模态连续手语识别的视觉 - 文本对比学习增强

Jan, 2024

SignVTCL: 多模态连续手语识别的视觉 - 文本对比学习增强

SignVTCL: Multi-Modal Continuous Sign Language Recognition Enhanced by Visual-Textual Contrastive Learning

Hao Chen, Jiaze Wang, Ziyu Guo, Jinpeng Li, Donghao Zhou...

TL;DR利用多模态数据和语言模型的泛化能力，通过视觉 - 文本对比学习，提出了一种多模态连续手语识别框架 SignVTCL，它整合了视频、关键点和光流等多模态数据，训练了统一的视觉骨干并获得更强大的视觉表示，同时通过视觉 - 文本对齐方法在词汇和句级别确保视觉特征与手语之间的精确对应，实验结果表明，SignVTCL 在三个数据集上取得了领先于之前方法的最新成果。

Abstract

sign language recognition (SLR) plays a vital role in facilitating communication for the hearing-impaired community. SLR is a weakly supervised task where entire videos are annotated with glosses, making it challenging to identify the corresponding gloss within a video segment. Recent

sign language recognition multi-modal continuous sign language recognition visual-textual contrastive learning large-scale datasets state-of-the-art results

发现论文，激发创造

CVT-SLR: 对比视觉 - 文本变换及变分对齐应用于手语识别

本文提出了一种新的对比视觉 - 文本转换（CVT-SLR）的方案，以充分探索视觉和语言模态的预训练知识，改进手语识别（SLR）的效果，实验结果表明其优于现有的单模态方法甚至优于 SOTA 多模态方法。

Mar, 2023

两种语言的寓言：从口语监督中进行大词汇连续手语识别

我们引入了一种多任务 Transformer 模型 CSLR2，可以在手语序列和口语文本之间输出联合嵌入空间，以实现大词汇连续手语识别（CSLR）和手语检索。通过构建新的数据集注释，我们在大词汇环境中对 CSLR 进行了评估，并证明了通过精心选择损失函数，同时训练模型进行 CSLR 和检索任务在性能上是互相有益的。利用 BOBSL 和英文字幕等大词汇数据集中的弱监督和嘈杂监督，我们的模型在两个任务上明显优于以往的最先进技术。

May, 2024

利用跨语言手势改进连续手语识别

该研究旨在通过利用多语种手语语料库来促进单一语种的连续手语识别，通过识别跨语种手语并将其作为辅助训练数据，从而提高其识别能力。实验结果表明，该方法在两个广泛使用的连续手语识别数据集上取得了最先进的性能。

Aug, 2023

无术语手语翻译：基于视觉 - 语言预训练的改进

基于视觉 - 语言预训练的无手语互译（GFSLT-VLP）方法通过结合对比式语言 - 图像预训练（CLIP）和掩码自监督学习，构建了一个端到端的模型，实现了在 PHOENIX14T 数据集上的 BLEU-4 分数大幅提升（> +5），取得了与最先进的无手语互译方法相当的竞争性结果。

Jul, 2023

改进的图像模型在连续手语识别中的应用

通过采用 CLIP 作为视觉主干骨架，在固定参数的同时引入一组可学习模块，AdaptSign 能够高效地适应连续手语识别任务，并在包括 PHOENIX14、PHOENIX14-T、CSL-Daily 和 CSL 等不同基准测试中展现出卓越性能。可视化结果显示，AdaptSign 能够动态地关注手语视频中信息丰富的空间区域和跨帧轨迹。

Apr, 2024

通过跨模态增强提高连续手语识别能力

提出了一种基于连接时序分类 (CTC) 目标函数和交叉模态增强的新型架构，来提高连续手语识别系统的性能，通过实现词频错误率的计算过程实现跨模态数据的增强和伪数据生成，有效地拓宽了数据集，提升了预测准确率。

Oct, 2020

基于条件变分自动编码器的手语翻译与跨模态对齐

为了解决手语翻译中视觉和文本之间的跨模态对齐问题，本研究提出了一种基于条件变分自编码器的新型框架（CV-SLT），通过引入两个 KL 散度来促进手语视频和口语文本之间的直接且充分的跨模态对齐。实验证明，该框架在公共数据集上取得了新的最先进结果，并显著减轻了跨模态表示差异。

Dec, 2023

连续手语识别技术的比较研究

连续手语识别 (CSLR) 着重于对连续进行而没有停顿的手语姿势序列的解释。本研究对最新的深度学习 CSLR 技术进行了实证评估，并评估其在各种数据集和手语中的表现。所选择的模型实施了一系列用于提取有意义特征的方法，并采用不同的训练策略。通过在多个数据集上评估这些模型，特别是 RWTH-PHOENIX-Weather-2014、ArabSign 和 GrSL，分别代表着不同的手语，来确定它们对建模不同手语的功效。所进行的实验在所选择的数据集上建立了新的基准，并为在具有挑战性场景下评估的技术的稳健性和泛化性提供了有价值的见解。

Jun, 2024

注意力驱动的多模态融合：增强手语识别和翻译

本文研究了在连续手语识别和翻译中添加多模态信息的机制，通过将光流信息与 RGB 图像结合，丰富了与运动相关的特征。我们使用了一个轻量级的插件，不需要为新的模态包含单独的特征提取器，并在手语识别和翻译任务中应用了这些改变，提高了各自的性能。通过在 RWTH-PHOENIX-2014 数据集上进行评估，我们的方法在手语识别任务中将词错误率降低了 0.9，在翻译任务中，我们的方法在测试集上提高了大多数 BLEU 得分约 0.6。

Sep, 2023

自然语言辅助手语识别

该论文提出了一种自然语言辅助手语识别 (NLA-SLR) 框架，利用手语词汇中的语义信息来降低手语识别中存在的视觉相似性 (VISigns) 问题。该论文设计了语言辅助标签平滑和交互式混合等技术来提高识别性能，并引入了视频关键点网络作为新型的骨干网络来获得更好的结果。实验结果表明，该方法在三个广泛采用的基准测试数据集上均达到了最先进的性能。

Mar, 2023