May, 2023

使用 Transformer 和自然语言处理进行在线手势识别

TL;DR本文中,使用 Transformer 模型结构对在线手写手势符号转化为自然语言句子进行了研究,并展示了该模型的编码器解决多级分割、学习某些语言特征和语法规则等方面的优秀表现。此外,使用学习的 Byte-Pair-Encoding(BPE)和大型解码空间为数据输入和语法规则提供了鲁棒性。研究表明该模型具有迁移学习能力,适用于许多其他语言,并可用于泛用性的手写识别任务。最终,基于一个新的手写手势数据集训练小型 Transformer 模型,对于英语、德语句子平均归一化 Levenshtein 准确率达到 96%,对于法语则为 94%。