AdaBrowse: 自适应视频浏览器以提高连续手语识别效率

MMAug, 2023

AdaBrowse: 自适应视频浏览器以提高连续手语识别效率

AdaBrowse: Adaptive Video Browser for Efficient Continuous Sign Language Recognition

Lianyu Hu, Liqing Gao, Zekang Liu, Chi-Man Pun, Wei Feng

TL;DR提出了一种新的自适应模型（AdaBrowse），通过将连续手语识别（CSLR）问题建模成顺序决策任务，动态选择输入视频序列中最具信息量的子序列，并利用时空冗余实现高效计算，对四个大规模 CSLR 数据集进行了广泛的实验，证明了 AdaBrowse 的有效性。

Abstract

raw videos have been proven to own considerable feature redundancy where in many cases only a portion of frames can already meet the requirements for accurate recognition. In this paper, we are interested in whet

raw videos feature redundancy continuous sign language recognition adaptive model efficient inference

发现论文，激发创造

改进的图像模型在连续手语识别中的应用

通过采用 CLIP 作为视觉主干骨架，在固定参数的同时引入一组可学习模块，AdaptSign 能够高效地适应连续手语识别任务，并在包括 PHOENIX14、PHOENIX14-T、CSL-Daily 和 CSL 等不同基准测试中展现出卓越性能。可视化结果显示，AdaptSign 能够动态地关注手语视频中信息丰富的空间区域和跨帧轨迹。

Apr, 2024

两种语言的寓言：从口语监督中进行大词汇连续手语识别

我们引入了一种多任务 Transformer 模型 CSLR2，可以在手语序列和口语文本之间输出联合嵌入空间，以实现大词汇连续手语识别（CSLR）和手语检索。通过构建新的数据集注释，我们在大词汇环境中对 CSLR 进行了评估，并证明了通过精心选择损失函数，同时训练模型进行 CSLR 和检索任务在性能上是互相有益的。利用 BOBSL 和英文字幕等大词汇数据集中的弱监督和嘈杂监督，我们的模型在两个任务上明显优于以往的最先进技术。

May, 2024

连续手语识别技术的比较研究

连续手语识别 (CSLR) 着重于对连续进行而没有停顿的手语姿势序列的解释。本研究对最新的深度学习 CSLR 技术进行了实证评估，并评估其在各种数据集和手语中的表现。所选择的模型实施了一系列用于提取有意义特征的方法，并采用不同的训练策略。通过在多个数据集上评估这些模型，特别是 RWTH-PHOENIX-Weather-2014、ArabSign 和 GrSL，分别代表着不同的手语，来确定它们对建模不同手语的功效。所进行的实验在所选择的数据集上建立了新的基准，并为在具有挑战性场景下评估的技术的稳健性和泛化性提供了有价值的见解。

Jun, 2024

基于视频的手语识别，无需时间分割

该研究提出了一种用 Hierarchical Attention Network 和 Latent Space 实现连续手语识别的新型框架，该方法无需时间分割预处理、可以缩小语义差距，并在实验中得到了验证。

Jan, 2018

SlowFast 网络用于连续手语识别

本研究旨在通过双通道 SlowFast 网络以及特殊的特征融合方法，有效提取连续手语识别中的时空特征，并在多个数据集上展示了该模型在空间和动态表示方面的优势。

Sep, 2023

基于自适应的 Conformer 的连续手语识别与无监督预训练

该研究通过使用 Conformer 和 Cross-Modal Relative Attention (CMRA) 来进行连续手语识别，利用 Regressional Feature Extraction 进行预训练，证明了这些方法在 PHOENIX-2014 和 PHOENIX-2014T 两个基准数据集上取得了最好的成果。

May, 2024

利用跨语言手势改进连续手语识别

该研究旨在通过利用多语种手语语料库来促进单一语种的连续手语识别，通过识别跨语种手语并将其作为辅助训练数据，从而提高其识别能力。实验结果表明，该方法在两个广泛使用的连续手语识别数据集上取得了最先进的性能。

Aug, 2023

基于内间关注的连续手语识别

本研究介绍了在连续手语识别研究中引入的一种新模块，称为 “内 - 间词汇关注模块”，以利用手语视频中词汇内部帧之间的关系，以及词汇之间的语义和语法依赖关系。在实验中，使用 PHOENIX-2014 基准数据集对所提出的模型进行评估，结果表明该方法可以在无先验知识的情况下有效地提取手语特征，改善连续手语识别的准确性，并在测试集上取得 20.4 的字词错误率（WER），这是与使用额外监督的先进技术相比具有竞争力的结果。

Jun, 2024

用于连续手语识别的全卷积网络

本文提出了使用全卷积网络 (FCN) 实现在线手语识别的方法，同时从仅具有句子级注释的弱注释视频序列中学习空间和时间特征，通过引入一个手语特征增强 (GFE) 模块来提高序列对齐学习的效果，实验表明该方法在连续手语识别上有效且在在线识别中表现出了较好的性能。

Jul, 2020

高效视频识别的自适应对焦

本文探讨了视频识别中的空间冗余问题，提出了一种基于强化学习的自适应空间视频识别方法（AdaFocus），通过在一个小图像块的空间序列上采用高效的卷积神经网络和循环决策网络来定位和选择最相关的区域，以提高计算效率和精度。

May, 2021