本文介绍了一个针对手语视频的自然语言处理方案,包括识别、翻译、搜索等任务,该方案对于使人工智能技术可被聋人使用至关重要。作者提出了一种端到端的模型 FSS-Net 来解决手语视频中的手指拼写关键词或短语的搜索问题,并经过实验证明,该模型对于搜索和检索模型来说是一个十分关键的组成部分,能够明显优于其他基准模型的性能。
Mar, 2022
本研究针对美国手语中的手指拼字识别进行了研究,并提出了迄今为止最大的数据集用于手指拼字识别。使用这个数据集,我们提出了在自然出现的视频数据中识别手指拼字序列的第一次尝试,并利用手的检测器和序列模型进行识别。通过对模型变量的影响分析,本研究提供了基准参考,可用于进一步的手语识别研究。
Oct, 2018
这篇研究提出了一种基于递归注意机制的端到端模型,用于在野外 ASL 视频中识别手语拼写序列。新的数据集的引入提高了性能。
Aug, 2019
研究美国手语中指拼字字母的视频序列识别问题,并通过收集和注释新的连续指拼视频数据集,比较多种类型的识别器,探索签名者差异问题。基于深度神经网络的特征,我们的半马尔可夫条件随机场模型在签名者依赖和多签名者情景下均取得较高的字母识别准确率。
Sep, 2016
本研究提出了一个基于自动编码器和注意力机制的神经编码器 - 解码器模型用于视频中美国手语手指拼写字的自动识别,不需要帧级别的标签或手工特征,并且可以利用未标记数据来提高特征学习。该模型在无需训练标签的情况下,识别出视频序列中的手指拼写的单词,相对于以往的方法在独立标记和标记者自适应的手指拼写识别中分别获得了 11.6% 和 4.4% 的绝对字母准确率提高。
Oct, 2017
这篇论文研究了自然环境下手语的自动处理,包括手指拼写、手势识别和手语翻译,并提出了新的数据集、任务和方法。
Aug, 2023
本研究探讨了在签名人不相关的设置下,对手指拼写字母序列进行美国手语识别的问题,并使用深度神经网络进行自适应模型,从而在词标签的情况下实现了最高 82.7% 的字符识别准确率。
Feb, 2016
我们在野外使用视频来处理美国手语拼写翻译的任务。我们利用更精确的手部姿势估计和提出了一种新的架构,它利用基于 Transformer 的编码 - 解码模型,实现了无缝上下文单词翻译。翻译模型通过一种新的损失项,准确预测指拼单词的长度,从而有益于训练和推理。我们还提出了一种新的两阶段推理方法,在解码器的语言模型能力下重新对假设进行排名。通过广泛的实验证明,我们的方法在 ChicagoFSWild 和 ChicagoFSWild + 上优于现有技术模型,相对性能提高了 10% 以上。我们的发现突出了我们方法的有效性和推进手语翻译中的拼写识别的潜力。代码也可在此 https 网址找到。
Nov, 2023
本文提出了一种无需额外信息就能从影片示例中学习手部微妙运动的方法,通过使用预训练的深度视觉模型和最新的强化学习算法(PP0)来训练机器人手模型复制手势运动,并演示了其在 6 个不同手语字母上的成功率。
Sep, 2022
本文介绍了一种通过迭代学习的 SPOT-ALIGN 框架来改善印式手语检索与识别的效果,该框架利用大规模的美式手语数据集 How2Sign,使用交叉模态嵌入技术以及自由文本查询来挖掘手语视频集合并且解决标注数据不足的问题。
Jan, 2022