手语姿态网络：基于姿态的 Transformer 模型增强手语翻译

Nov, 2023

手语姿态网络：基于姿态的 Transformer 模型增强手语翻译

Fingerspelling PoseNet: Enhancing Fingerspelling Translation with Pose-Based Transformer Models

Pooya Fayyazsanavi, Negar Nejatishahidin, Jana Kosecka

TL;DR我们在野外使用视频来处理美国手语拼写翻译的任务。我们利用更精确的手部姿势估计和提出了一种新的架构，它利用基于 Transformer 的编码 - 解码模型，实现了无缝上下文单词翻译。翻译模型通过一种新的损失项，准确预测指拼单词的长度，从而有益于训练和推理。我们还提出了一种新的两阶段推理方法，在解码器的语言模型能力下重新对假设进行排名。通过广泛的实验证明，我们的方法在 ChicagoFSWild 和 ChicagoFSWild + 上优于现有技术模型，相对性能提高了 10% 以上。我们的发现突出了我们方法的有效性和推进手语翻译中的拼写识别的潜力。代码也可在此 https 网址找到。

Abstract

We address the task of american sign language fingerspelling translation using videos in the wild. We exploit advances in more accurate hand pose estimation and propose a novel architecture that leverages the tra

american sign language fingerspelling translation hand pose estimation transformer-based encoder-decoder model fingerspelling recognition

发现论文，激发创造

使用未标注数据进行多任务训练，以实现端到端手语手指拼写识别

本研究提出了一个基于自动编码器和注意力机制的神经编码器 - 解码器模型用于视频中美国手语手指拼写字的自动识别，不需要帧级别的标签或手工特征，并且可以利用未标记数据来提高特征学习。该模型在无需训练标签的情况下，识别出视频序列中的手指拼写的单词，相对于以往的方法在独立标记和标记者自适应的手指拼写识别中分别获得了 11.6% 和 4.4% 的绝对字母准确率提高。

Oct, 2017

视频中无词典手语识别：数据、模型和手势者自适应

研究美国手语中指拼字字母的视频序列识别问题，并通过收集和注释新的连续指拼视频数据集，比较多种类型的识别器，探索签名者差异问题。基于深度神经网络的特征，我们的半马尔可夫条件随机场模型在签名者依赖和多签名者情景下均取得较高的字母识别准确率。

Sep, 2016

野外环境中的美式手语手指拼写识别

本研究针对美国手语中的手指拼字识别进行了研究，并提出了迄今为止最大的数据集用于手指拼字识别。使用这个数据集，我们提出了在自然出现的视频数据中识别手指拼字序列的第一次尝试，并利用手的检测器和序列模型进行识别。通过对模型变量的影响分析，本研究提供了基准参考，可用于进一步的手语识别研究。

Oct, 2018

搜索美国手语手指拼写的内容

本文介绍了一个针对手语视频的自然语言处理方案，包括识别、翻译、搜索等任务，该方案对于使人工智能技术可被聋人使用至关重要。作者提出了一种端到端的模型 FSS-Net 来解决手语视频中的手指拼写关键词或短语的搜索问题，并经过实验证明，该模型对于搜索和检索模型来说是一个十分关键的组成部分，能够明显优于其他基准模型的性能。

Mar, 2022

深度神经网络适应下的无需手语者手语识别

本研究探讨了在签名人不相关的设置下，对手指拼写字母序列进行美国手语识别的问题，并使用深度神经网络进行自适应模型，从而在词标签的情况下实现了最高 82.7% 的字符识别准确率。

Feb, 2016

美国手语拼写检测

本文提出在原始的、未修剪的手语视频中检测指拼的新模型，采用多任务训练方法，同时融合姿态估计和指拼转录，相比其他方法表现得更优，为建立实际应用的指拼识别系统提供了重要的步骤和技术。

Apr, 2021

走向现实世界中的美国手语处理：数据、任务和方法

这篇论文研究了自然环境下手语的自动处理，包括手指拼写、手势识别和手语翻译，并提出了新的数据集、任务和方法。

Aug, 2023

使用 Transformer 和自然语言处理进行在线手势识别

本文中，使用 Transformer 模型结构对在线手写手势符号转化为自然语言句子进行了研究，并展示了该模型的编码器解决多级分割、学习某些语言特征和语法规则等方面的优秀表现。此外，使用学习的 Byte-Pair-Encoding（BPE）和大型解码空间为数据输入和语法规则提供了鲁棒性。研究表明该模型具有迁移学习能力，适用于许多其他语言，并可用于泛用性的手写识别任务。最终，基于一个新的手写手势数据集训练小型 Transformer 模型，对于英语、德语句子平均归一化 Levenshtein 准确率达到 96％，对于法语则为 94％。

May, 2023

手语 Transformer: 端到端手语识别和翻译

本研究引入了一种新型的基于 Transformer 的架构，通过使用 CTC loss 将连续手语识别和翻译结合在一起，从而实现了端到端的训练。我们的手语翻译器在标准评估数据集 PHOENIX14T 上实现了最先进的手语翻译效果，超越了传统的手语视频到口语 / 手语关键词到口语机器翻译模型。

Mar, 2020

现在每个人都签署：将口语语言翻译为逼真的手语视频

引入了 SignGAN 来通过运用 Mixture Density Network (MDN) 的 transformer 架构，提出了一个新颖的基于关键点的损失函数，实现了从口语翻译成骨骼姿势，再生成连续的手势语视频。使用 8 个手语翻译者的数据集，证明了该方法在定性和定量上均优于基线方法。

Nov, 2020