Nov, 2023

手语姿态网络:基于姿态的 Transformer 模型增强手语翻译

TL;DR我们在野外使用视频来处理美国手语拼写翻译的任务。我们利用更精确的手部姿势估计和提出了一种新的架构,它利用基于 Transformer 的编码 - 解码模型,实现了无缝上下文单词翻译。翻译模型通过一种新的损失项,准确预测指拼单词的长度,从而有益于训练和推理。我们还提出了一种新的两阶段推理方法,在解码器的语言模型能力下重新对假设进行排名。通过广泛的实验证明,我们的方法在 ChicagoFSWild 和 ChicagoFSWild + 上优于现有技术模型,相对性能提高了 10% 以上。我们的发现突出了我们方法的有效性和推进手语翻译中的拼写识别的潜力。代码也可在此 https 网址找到。