GestFormer: 动态手势识别的多尺度小波池化变换网络
本文中,使用 Transformer 模型结构对在线手写手势符号转化为自然语言句子进行了研究,并展示了该模型的编码器解决多级分割、学习某些语言特征和语法规则等方面的优秀表现。此外,使用学习的 Byte-Pair-Encoding(BPE)和大型解码空间为数据输入和语法规则提供了鲁棒性。研究表明该模型具有迁移学习能力,适用于许多其他语言,并可用于泛用性的手写识别任务。最终,基于一个新的手写手势数据集训练小型 Transformer 模型,对于英语、德语句子平均归一化 Levenshtein 准确率达到 96%,对于法语则为 94%。
May, 2023
提出了一种基于变分变压器的新型自动化从语音中合成的三维体手势的框架,通过学习语音和三维手势之间的映射,使用概率分布生成多样化的手势,并通过预训练方案解决数据稀缺性问题,结果显示比现有方法产生更逼真、更恰当和更多样化的身体手势。
Sep, 2023
本篇论文提出了一种新的方法,基于改进的 Transformer 模型,利用手术机器人端效应器当前的运动数据,可以实现手势识别、手势预测、轨迹预测等三个任务,能够实现近乎实时的手术活动识别和预测,实验结果表明该方案可以比同类方法表现更好。
Dec, 2022
本文提出了一种新型的 Transformer 架构 DualFormer 用于视频识别,此架构可以有效地处理空间 - 时间关注,能够捕捉短距离和长距离的时空依赖关系,并通过本地 - 全局层次划分策略显著减少注意力计算中的关键值个数,从而提高效率并在五个视频基准测试上验证了 DualFormer 的优越性能。
Dec, 2021
提出了一个全新的端到端生成模型,名为 Persona-Gestor,以原始语音音频为唯一输入生成高度个性化的 3D 全身手势,将模糊特征提取器和非自回归自适应层标准化 (AdaLN) 转换扩散结构相结合,并利用扩散模型进行训练和推断,通过在 Trinity、ZEGGS 和 BEAT 数据集上的广泛评估证实了其优越性能,提高了系统的可用性和泛化能力,拓宽了语音驱动手势合成的发展前景。
Mar, 2024
本文提出了一种基于 Guided Patch-Grouping Wavelet Transformer 的 Transformer-CNN 相互学习框架,其中通过将原始 UHR 图像划分为补丁并在动态分组中对其进行轻量级多头小波变换器(WFormer)网络的学习来学习低级别本地细节,同时也可以捕获这个过程中的细粒度长距离上下文依赖,并利用 CNN 生成的掩码来指导贴图分组过程,提供一种启发式决策;同时利用两个分支之间的一致性约束来维护图像块之间的空间一致性,实验结果表明该方法在五个基准数据集上展现出较好的性能。
Jul, 2023
该研究使用 Transformer 架构为端到端的在线手写手势建立表达式树提供了强大的框架,并成功利用了注意力机制编码、学习和执行表达式的潜在语法,提供了鲁棒性,并提出了一个新的度量标准用于输出表达式树的语法正确性的评估。
Nov, 2022
本文提出了一种基于 Transformer 和小波的网络 (WaveletFormerNet) 用于现实世界中的雾图像恢复,它通过将离散小波变换嵌入到 Vision Transformer 中来缓解由于降采样导致的图像质量损失和颜色失真,同时引入了并行卷积和特征聚合模块以提高模型的性能和泛化能力。实验结果表明,WaveletFormerNet 在雾图像恢复和计算机视觉应用中具有比现有方法更好的效果。
Jan, 2024
本文提出了一种新的方法 HiFormer,它通过使用 Swin Transformer 模块和基于 CNN 的编码器设计了两种多尺度特征表示来有效地跨越 CNN 和 Transformer 进行医学图像分割。在编码器解码器结构的跳跃连接中,我们提出了 Double-Level Fusion(DLF)模块,以确保从两个上述表示中获得的全局和局部特征的细粒度融合。在各种医学图像分割数据集上的广泛实验表明,HiFormer 在计算复杂度、定量和定性结果方面优于其他基于 CNN、Transformer 和混合方法。
Jul, 2022