多通道变形器用于多关节手语翻译
本研究引入了一种新型的基于 Transformer 的架构,通过使用 CTC loss 将连续手语识别和翻译结合在一起,从而实现了端到端的训练。我们的手语翻译器在标准评估数据集 PHOENIX14T 上实现了最先进的手语翻译效果,超越了传统的手语视频到口语 / 手语关键词到口语机器翻译模型。
Mar, 2020
本文提出了利用对抗多通道模型进行手语翻译的方法,在模仿人类手语制作过程中加入非手势要素,如面部特征和口型模式,以提高语言翻译的准确度。我们采用基于转换器的生成器和条件判别器的最小化极值过程,根据来源文本制作符合实际的手语,并在 RWTH-PHOENIX-Weather-2014T (PHOENIX14T) 数据集上进行了评估和表现改进。
Aug, 2020
这篇文章提出了一种使用渐进式变换器实现手语自动翻译的方法,解决了现有深度学习方法无法表现手语连续性和完整形态的问题,采用数据增强技术和混合密度网络模型,提高了手语模拟的真实性和表达力,并在 PHOENIX14T 数据集上进行了基准测试和用户评估。
Mar, 2021
基于影像及语言学特性,本研究提出了一种有效且高效的学习手语表示的方法,专注于手势视频中的脸部、手部和身体姿态,并通过自监督学习的方式学习手语中复杂的手形和丰富的面部表情,实现对手语翻译的新突破。
Jun, 2024
本文研究了在连续手语识别和翻译中添加多模态信息的机制,通过将光流信息与 RGB 图像结合,丰富了与运动相关的特征。我们使用了一个轻量级的插件,不需要为新的模态包含单独的特征提取器,并在手语识别和翻译任务中应用了这些改变,提高了各自的性能。通过在 RWTH-PHOENIX-2014 数据集上进行评估,我们的方法在手语识别任务中将词错误率降低了 0.9,在翻译任务中,我们的方法在测试集上提高了大多数 BLEU 得分约 0.6。
Sep, 2023
从人类翻译的角度出发,我们提出了一种基于多模态变压器架构的上下文感知翻译方法,通过利用上下文信息和自信预测来消除较弱的视觉线索,在最终的变压器解码器中组合来自视频、识别出的手语词汇和前面手语序列的上下文信息,显著提高了本文提出方法在较大规模数据集和公开数据集上的机器翻译性能,近乎翻倍地提高了基线方法的 BLEU-4 分数。
Aug, 2023
本研究提出了一种任务感知的指令网络,即 TIN-SLT,用于手语翻译,通过引入指令模块和基于学习的特征融合策略到 Transformer 网络中,从而充分利用预训练模型的语言能力来进一步提高翻译性能。另外,通过探索手语词汇和目标口语的表示空间,我们提出了一种多级数据增强方案来调整训练集的数据分布。我们在两个具有挑战性的基准数据集 PHOENIX-2014-T 和 ASLG-PC12 上进行了大量实验,其中我们的方法在 BLEU-4 方面的表现比以前的最佳解决方案提高了 1.65 和 1.42。
Apr, 2022
本研究提出了 STMC-Transformer 翻译系统,相对当前最先进技术,在 PHOENIX-Weather 2014T 数据集的亮度 - 文本翻译和视频 - 文本翻译方面提高了 5 和 7 BLEU。在 ASLG-PC12 数据集上,也有超过 16 BLEU 的提高。同时,我们证明了当前方法中的问题,即依赖于 gloss 监督会导致 SLT 表现不佳,并揭示了 gloss 是手语的低效表示方法,因此建议未来的 SLT 研究采用端到端的训练方法或使用不同的手语注释方式。
Apr, 2020
该论文提出了一种名为 Progressive Transformers 的新型架构,旨在将离散文本语言句子翻译成表示手语的连续 3D 骨架姿势输出,从而实现自动手语翻译,作者在文中还提出了几种数据增强处理方式以克服漂移问题并提高手语翻译性能,在 RWTH-PHOENIX-Weather-2014T 数据集上取得了令人瞩目的基础性成果,为未来的研究提供了基线。
Apr, 2020
该研究介绍了一种名为多信道手语翻译 (MCSLT) 的新任务,并提出了一种用于捕捉多种信号通道的新度量标准 SignBLEU。通过在三个手语文本语料库上验证 SignBLEU,并通过两个部分级任务考察其与人类判断的相关性,研究发现 SignBLEU 与人类判断的相关性始终优于竞争度量标准。为了促进进一步的 MCSLT 研究,研究报告了三个手语文本语料库的基准分数,并发布了 SignBLEU 的源代码。
Jun, 2024