迭代原型的手语翻译
基于视觉 - 语言预训练的无手语互译(GFSLT-VLP)方法通过结合对比式语言 - 图像预训练(CLIP)和掩码自监督学习,构建了一个端到端的模型,实现了在 PHOENIX14T 数据集上的 BLEU-4 分数大幅提升(> +5),取得了与最先进的无手语互译方法相当的竞争性结果。
Jul, 2023
本研究提出了一种任务感知的指令网络,即 TIN-SLT,用于手语翻译,通过引入指令模块和基于学习的特征融合策略到 Transformer 网络中,从而充分利用预训练模型的语言能力来进一步提高翻译性能。另外,通过探索手语词汇和目标口语的表示空间,我们提出了一种多级数据增强方案来调整训练集的数据分布。我们在两个具有挑战性的基准数据集 PHOENIX-2014-T 和 ASLG-PC12 上进行了大量实验,其中我们的方法在 BLEU-4 方面的表现比以前的最佳解决方案提高了 1.65 和 1.42。
Apr, 2022
本文提出了一种基于多种时间粒度的新型手语视频片段表示法,通过时空语义金字塔网络 (TSPNet) 来实现手势识别和特征学习,该方法加强了前沿技术的表现并优化了手语翻译过程。
Oct, 2020
本研究提出了 STMC-Transformer 翻译系统,相对当前最先进技术,在 PHOENIX-Weather 2014T 数据集的亮度 - 文本翻译和视频 - 文本翻译方面提高了 5 和 7 BLEU。在 ASLG-PC12 数据集上,也有超过 16 BLEU 的提高。同时,我们证明了当前方法中的问题,即依赖于 gloss 监督会导致 SLT 表现不佳,并揭示了 gloss 是手语的低效表示方法,因此建议未来的 SLT 研究采用端到端的训练方法或使用不同的手语注释方式。
Apr, 2020
该论文提出了一种名为 Progressive Transformers 的新型架构,旨在将离散文本语言句子翻译成表示手语的连续 3D 骨架姿势输出,从而实现自动手语翻译,作者在文中还提出了几种数据增强处理方式以克服漂移问题并提高手语翻译性能,在 RWTH-PHOENIX-Weather-2014T 数据集上取得了令人瞩目的基础性成果,为未来的研究提供了基线。
Apr, 2020
使用大型语言模型训练手语翻译任务,提出了 SignLLM 框架,将手语视频转换为类似语言的表示,通过两个关键模块进行转换,同时采用标记对齐损失来增强语义兼容性,在两个广泛使用的手语翻译基准测试中取得了最先进的无注释结果。
Apr, 2024
该研究使用 Transformer 和 I3D 视频特征对 How2Sign 数据集进行训练,并以降低的 BLEU 作为参考指标,获得了 8.03 的 BLEU 得分,提供了第一个开源实现,推进了自动手语翻译技术的发展。
Apr, 2023
该论文提出了一种新颖的用于手语翻译的深度学习体系结构,称为分层时空图神经网络,在高层和细节层次上建模手语,并使用图卷积和图自我注意机制来描述局部和全局信息特性,并在基准数据集上进行了实验验证。
Nov, 2021