走向现实世界中的美国手语处理:数据、任务和方法
本文介绍了一个针对手语视频的自然语言处理方案,包括识别、翻译、搜索等任务,该方案对于使人工智能技术可被聋人使用至关重要。作者提出了一种端到端的模型 FSS-Net 来解决手语视频中的手指拼写关键词或短语的搜索问题,并经过实验证明,该模型对于搜索和检索模型来说是一个十分关键的组成部分,能够明显优于其他基准模型的性能。
Mar, 2022
本研究针对美国手语中的手指拼字识别进行了研究,并提出了迄今为止最大的数据集用于手指拼字识别。使用这个数据集,我们提出了在自然出现的视频数据中识别手指拼字序列的第一次尝试,并利用手的检测器和序列模型进行识别。通过对模型变量的影响分析,本研究提供了基准参考,可用于进一步的手语识别研究。
Oct, 2018
本文提出在原始的、未修剪的手语视频中检测指拼的新模型,采用多任务训练方法,同时融合姿态估计和指拼转录,相比其他方法表现得更优,为建立实际应用的指拼识别系统提供了重要的步骤和技术。
Apr, 2021
研究美国手语中指拼字字母的视频序列识别问题,并通过收集和注释新的连续指拼视频数据集,比较多种类型的识别器,探索签名者差异问题。基于深度神经网络的特征,我们的半马尔可夫条件随机场模型在签名者依赖和多签名者情景下均取得较高的字母识别准确率。
Sep, 2016
本文提出了一个包括 25,000 个有注释视频的美国手语数据集,通过 I3D 架构的应用,实现了对 1000 个手势的无限制语境下的识别。
Dec, 2018
本文介绍了 OpenASL 数据集,包含超过 200 名大规模美国手语(ASL)- 英语翻译中对手语搜索作为预训练工作的技术和融合口型和手势特征等技术,这些技术相比基线模型产生了一致的显著提高。
May, 2022
本研究提出了一个基于自动编码器和注意力机制的神经编码器 - 解码器模型用于视频中美国手语手指拼写字的自动识别,不需要帧级别的标签或手工特征,并且可以利用未标记数据来提高特征学习。该模型在无需训练标签的情况下,识别出视频序列中的手指拼写的单词,相对于以往的方法在独立标记和标记者自适应的手指拼写识别中分别获得了 11.6% 和 4.4% 的绝对字母准确率提高。
Oct, 2017
电脑识别视频中孤立符号存在着一些困难,其中包括手语者之间的口头和非口头的同步变化以及特定符号的实现中存在的社会语言学变化。本文概述了这些挑战,并基于大规模的语言学注释视频数据的发现,对美国手语的符号结构中的某些规律进行了讨论。
Nov, 2023
我们在野外使用视频来处理美国手语拼写翻译的任务。我们利用更精确的手部姿势估计和提出了一种新的架构,它利用基于 Transformer 的编码 - 解码模型,实现了无缝上下文单词翻译。翻译模型通过一种新的损失项,准确预测指拼单词的长度,从而有益于训练和推理。我们还提出了一种新的两阶段推理方法,在解码器的语言模型能力下重新对假设进行排名。通过广泛的实验证明,我们的方法在 ChicagoFSWild 和 ChicagoFSWild + 上优于现有技术模型,相对性能提高了 10% 以上。我们的发现突出了我们方法的有效性和推进手语翻译中的拼写识别的潜力。代码也可在此 https 网址找到。
Nov, 2023