美国手语拼写检测

CVPRApr, 2021

Fingerspelling Detection in American Sign Language

Bowen Shi, Diane Brentari, Greg Shakhnarovich, Karen Livescu

TL;DR本文提出在原始的、未修剪的手语视频中检测指拼的新模型，采用多任务训练方法，同时融合姿态估计和指拼转录，相比其他方法表现得更优，为建立实际应用的指拼识别系统提供了重要的步骤和技术。

Abstract

fingerspelling, in which words are signed letter by letter, is an important component of American sign language. Most previous work on automatic

fingerspelling sign language detection pose estimation multi-task learning

发现论文，激发创造

搜索美国手语手指拼写的内容

本文介绍了一个针对手语视频的自然语言处理方案，包括识别、翻译、搜索等任务，该方案对于使人工智能技术可被聋人使用至关重要。作者提出了一种端到端的模型 FSS-Net 来解决手语视频中的手指拼写关键词或短语的搜索问题，并经过实验证明，该模型对于搜索和检索模型来说是一个十分关键的组成部分，能够明显优于其他基准模型的性能。

Mar, 2022

野外环境中的美式手语手指拼写识别

本研究针对美国手语中的手指拼字识别进行了研究，并提出了迄今为止最大的数据集用于手指拼字识别。使用这个数据集，我们提出了在自然出现的视频数据中识别手指拼字序列的第一次尝试，并利用手的检测器和序列模型进行识别。通过对模型变量的影响分析，本研究提供了基准参考，可用于进一步的手语识别研究。

Oct, 2018

野外手语识别及迭代视觉注意力

这篇研究提出了一种基于递归注意机制的端到端模型，用于在野外 ASL 视频中识别手语拼写序列。新的数据集的引入提高了性能。

Aug, 2019

视频中无词典手语识别：数据、模型和手势者自适应

研究美国手语中指拼字字母的视频序列识别问题，并通过收集和注释新的连续指拼视频数据集，比较多种类型的识别器，探索签名者差异问题。基于深度神经网络的特征，我们的半马尔可夫条件随机场模型在签名者依赖和多签名者情景下均取得较高的字母识别准确率。

Sep, 2016

使用未标注数据进行多任务训练，以实现端到端手语手指拼写识别

本研究提出了一个基于自动编码器和注意力机制的神经编码器 - 解码器模型用于视频中美国手语手指拼写字的自动识别，不需要帧级别的标签或手工特征，并且可以利用未标记数据来提高特征学习。该模型在无需训练标签的情况下，识别出视频序列中的手指拼写的单词，相对于以往的方法在独立标记和标记者自适应的手指拼写识别中分别获得了 11.6% 和 4.4% 的绝对字母准确率提高。

Oct, 2017

走向现实世界中的美国手语处理：数据、任务和方法

这篇论文研究了自然环境下手语的自动处理，包括手指拼写、手势识别和手语翻译，并提出了新的数据集、任务和方法。

Aug, 2023

深度神经网络适应下的无需手语者手语识别

本研究探讨了在签名人不相关的设置下，对手指拼写字母序列进行美国手语识别的问题，并使用深度神经网络进行自适应模型，从而在词标签的情况下实现了最高 82.7% 的字符识别准确率。

Feb, 2016

手语姿态网络：基于姿态的 Transformer 模型增强手语翻译

我们在野外使用视频来处理美国手语拼写翻译的任务。我们利用更精确的手部姿势估计和提出了一种新的架构，它利用基于 Transformer 的编码 - 解码模型，实现了无缝上下文单词翻译。翻译模型通过一种新的损失项，准确预测指拼单词的长度，从而有益于训练和推理。我们还提出了一种新的两阶段推理方法，在解码器的语言模型能力下重新对假设进行排名。通过广泛的实验证明，我们的方法在 ChicagoFSWild 和 ChicagoFSWild + 上优于现有技术模型，相对性能提高了 10% 以上。我们的发现突出了我们方法的有效性和推进手语翻译中的拼写识别的潜力。代码也可在此 https 网址找到。

Nov, 2023

HandMime：通过模仿学习进行手语手指拼写习得

本文提出了一种无需额外信息就能从影片示例中学习手部微妙运动的方法，通过使用预训练的深度视觉模型和最新的强化学习算法（PP0）来训练机器人手模型复制手势运动，并演示了其在 6 个不同手语字母上的成功率。

Sep, 2022

使用自由形式的文本查询进行手语视频检索

本文介绍了一种通过迭代学习的 SPOT-ALIGN 框架来改善印式手语检索与识别的效果，该框架利用大规模的美式手语数据集 How2Sign，使用交叉模态嵌入技术以及自由文本查询来挖掘手语视频集合并且解决标注数据不足的问题。

Jan, 2022