通过学习分词实现神经手语翻译
本研究引入了一种新型的基于 Transformer 的架构,通过使用 CTC loss 将连续手语识别和翻译结合在一起,从而实现了端到端的训练。我们的手语翻译器在标准评估数据集 PHOENIX14T 上实现了最先进的手语翻译效果,超越了传统的手语视频到口语 / 手语关键词到口语机器翻译模型。
Mar, 2020
本研究提出了一种任务感知的指令网络,即 TIN-SLT,用于手语翻译,通过引入指令模块和基于学习的特征融合策略到 Transformer 网络中,从而充分利用预训练模型的语言能力来进一步提高翻译性能。另外,通过探索手语词汇和目标口语的表示空间,我们提出了一种多级数据增强方案来调整训练集的数据分布。我们在两个具有挑战性的基准数据集 PHOENIX-2014-T 和 ASLG-PC12 上进行了大量实验,其中我们的方法在 BLEU-4 方面的表现比以前的最佳解决方案提高了 1.65 和 1.42。
Apr, 2022
基于视觉 - 语言预训练的无手语互译(GFSLT-VLP)方法通过结合对比式语言 - 图像预训练(CLIP)和掩码自监督学习,构建了一个端到端的模型,实现了在 PHOENIX14T 数据集上的 BLEU-4 分数大幅提升(> +5),取得了与最先进的无手语互译方法相当的竞争性结果。
Jul, 2023
本文提出了一种简单的基于迁移学习的手语翻译模型,通过预训练模型的视觉网络和语言网络来完成迁移学习,进一步提高了手语翻译模型效果。经实验证明,该模型能够显著优于之前的基于手语翻译结果,为今后的手语翻译研究提供了有效的基准。
Mar, 2022
本文旨在将自然语言处理技术应用于 Sign Language Production 管道的第一步,介绍了一种基于音素表示而非基于 gloss 表示的 T2H 翻译方法,并使用 HamNoSys 提取标志的手型作为额外的监督来进一步提高性能,最终在两个数据集上均取得了 BLEU-4 得分的最佳表现。
Sep, 2022
本文提出了一种使用大型口语语言模型将定位与相应字幕对齐的方法,通过使用单一模态,我们的方法计算成本低廉且可与现有的对齐技术相结合,我们在 mdgs 和 bobsl 数据集上定量证明了我们的方法的有效性,词对齐得分可达到 33.22 BLEU-1 得分。
Aug, 2023
通过两阶段的框架提出了 SSVP-SLT,该框架应对了缺乏对齐字幕的手语数据的问题,并解决了基于大规模网络抓取的数据集存在的隐私风险,通过自监督视频预训练和面部模糊化来提高 SLT 性能和保护隐私。
Feb, 2024
该研究使用 Transformer 和 I3D 视频特征对 How2Sign 数据集进行训练,并以降低的 BLEU 作为参考指标,获得了 8.03 的 BLEU 得分,提供了第一个开源实现,推进了自动手语翻译技术的发展。
Apr, 2023