改进的图像模型在连续手语识别中的应用

Apr, 2024

改进的图像模型在连续手语识别中的应用

Improving Continuous Sign Language Recognition with Adapted Image Models

Lianyu Hu, Tongkai Shi, Liqing Gao, Zekang Liu, Wei Feng

TL;DR通过采用 CLIP 作为视觉主干骨架，在固定参数的同时引入一组可学习模块，AdaptSign 能够高效地适应连续手语识别任务，并在包括 PHOENIX14、PHOENIX14-T、CSL-Daily 和 CSL 等不同基准测试中展现出卓越性能。可视化结果显示，AdaptSign 能够动态地关注手语视频中信息丰富的空间区域和跨帧轨迹。

Abstract

The increase of web-scale weakly labelled image-text pairs have greatly facilitated the development of large-scale vision-language models (e.g., CLIP), which have shown impressive generalization performance over

web-scale weakly labelled image-text pairs vision-language models continuous sign language recognition adaptsign cslr benchmarks

发现论文，激发创造

SignCLIP：对比学习连接文字和手语

SignCLIP 通过重新利用 CLIP 将口语文本和手语视频投影到相同的空间中，用于学习大规模、多语言视频文本对中有用的视觉表示，旨在处理手语。SignCLIP 在 Spreadthesign 上进行预训练，通过不同的下游数据集评估其性能，具有显著的文本 - 视频 / 视频 - 文本检索准确性，并在一些无关的任务（如孤立手语识别）上表现出竞争力。研究分析了口语文本和手语姿势形成的潜在空间，得出了额外的语言洞见。

Jul, 2024

利用跨语言手势改进连续手语识别

该研究旨在通过利用多语种手语语料库来促进单一语种的连续手语识别，通过识别跨语种手语并将其作为辅助训练数据，从而提高其识别能力。实验结果表明，该方法在两个广泛使用的连续手语识别数据集上取得了最先进的性能。

Aug, 2023

基于自适应的 Conformer 的连续手语识别与无监督预训练

该研究通过使用 Conformer 和 Cross-Modal Relative Attention (CMRA) 来进行连续手语识别，利用 Regressional Feature Extraction 进行预训练，证明了这些方法在 PHOENIX-2014 和 PHOENIX-2014T 两个基准数据集上取得了最好的成果。

May, 2024

SignVTCL: 多模态连续手语识别的视觉 - 文本对比学习增强

利用多模态数据和语言模型的泛化能力，通过视觉 - 文本对比学习，提出了一种多模态连续手语识别框架 SignVTCL，它整合了视频、关键点和光流等多模态数据，训练了统一的视觉骨干并获得更强大的视觉表示，同时通过视觉 - 文本对齐方法在词汇和句级别确保视觉特征与手语之间的精确对应，实验结果表明，SignVTCL 在三个数据集上取得了领先于之前方法的最新成果。

Jan, 2024

CLIP-Adapter: 特征适配器提升视觉语言模型

本文提出一种新的视觉语言模型 fine-tuning 方式 ——CLIP-Adapter，通过在原训练模型上加入新特征层并进行残差式混合来实现，在各种视觉分类任务中表现优异，优于 context optimization

Oct, 2021

AdaBrowse: 自适应视频浏览器以提高连续手语识别效率

提出了一种新的自适应模型（AdaBrowse），通过将连续手语识别（CSLR）问题建模成顺序决策任务，动态选择输入视频序列中最具信息量的子序列，并利用时空冗余实现高效计算，对四个大规模 CSLR 数据集进行了广泛的实验，证明了 AdaBrowse 的有效性。

Aug, 2023

两种语言的寓言：从口语监督中进行大词汇连续手语识别

我们引入了一种多任务 Transformer 模型 CSLR2，可以在手语序列和口语文本之间输出联合嵌入空间，以实现大词汇连续手语识别（CSLR）和手语检索。通过构建新的数据集注释，我们在大词汇环境中对 CSLR 进行了评估，并证明了通过精心选择损失函数，同时训练模型进行 CSLR 和检索任务在性能上是互相有益的。利用 BOBSL 和英文字幕等大词汇数据集中的弱监督和嘈杂监督，我们的模型在两个任务上明显优于以往的最先进技术。

May, 2024

基于内间关注的连续手语识别

本研究介绍了在连续手语识别研究中引入的一种新模块，称为 “内 - 间词汇关注模块”，以利用手语视频中词汇内部帧之间的关系，以及词汇之间的语义和语法依赖关系。在实验中，使用 PHOENIX-2014 基准数据集对所提出的模型进行评估，结果表明该方法可以在无先验知识的情况下有效地提取手语特征，改善连续手语识别的准确性，并在测试集上取得 20.4 的字词错误率（WER），这是与使用额外监督的先进技术相比具有竞争力的结果。

Jun, 2024

具有预训练视觉语言模型的类别增量学习

通过在图像编码器之后或文本编码器之前在预训练的 CLIP 模型上增加附加层，我们提出了一种利用预训练视觉 - 语言模型进行进一步调整的方法，从而使其能够适应新任务而不仅仅是零样本学习。我们对线性适配器、自注意适配器以及修改 CLIP 文本编码器输入的提示调整进行了研究。此外，我们还提出了一种参数保留的方法，通过衡量参数重要性，在增量学习过程中更好地保持稳定性和可塑性。实验证明，最简单的解决方案 —— 一个具有参数保留的线性适配器层，获得了最佳结果。多个常规基准实验一致表明这种方法显著改进了现有技术水平。

Oct, 2023

连续手语识别技术的比较研究

连续手语识别 (CSLR) 着重于对连续进行而没有停顿的手语姿势序列的解释。本研究对最新的深度学习 CSLR 技术进行了实证评估，并评估其在各种数据集和手语中的表现。所选择的模型实施了一系列用于提取有意义特征的方法，并采用不同的训练策略。通过在多个数据集上评估这些模型，特别是 RWTH-PHOENIX-Weather-2014、ArabSign 和 GrSL，分别代表着不同的手语，来确定它们对建模不同手语的功效。所进行的实验在所选择的数据集上建立了新的基准，并为在具有挑战性场景下评估的技术的稳健性和泛化性提供了有价值的见解。

Jun, 2024