面向端到端手语翻译的跨模态数据增强
为了解决手语翻译中视觉和文本之间的跨模态对齐问题,本研究提出了一种基于条件变分自编码器的新型框架(CV-SLT),通过引入两个 KL 散度来促进手语视频和口语文本之间的直接且充分的跨模态对齐。实验证明,该框架在公共数据集上取得了新的最先进结果,并显著减轻了跨模态表示差异。
Dec, 2023
提出一种转录目标单语言数据为其伪吉祥语的简单高效的规则转换方法,从而增强 SLT 翻译的自动化,实验结果表明,该方法能够显着提高 SLT 的性能,尤其是在 PHEONIX-WEATHER 2014T 和 ASLG-PC12 等两个 SLT 基准数据集上实现了最新成果。
Apr, 2023
该研究提出了一种新颖的神经翻译模型,基于动态图和多模态特征融合,结合手语语言学上的语意信息,以解决其它神经模型中可能存在的语意信息缺失问题。实验表明该模型可以在手语翻译方面取得更好的效果。
Nov, 2022
本研究提出了一种任务感知的指令网络,即 TIN-SLT,用于手语翻译,通过引入指令模块和基于学习的特征融合策略到 Transformer 网络中,从而充分利用预训练模型的语言能力来进一步提高翻译性能。另外,通过探索手语词汇和目标口语的表示空间,我们提出了一种多级数据增强方案来调整训练集的数据分布。我们在两个具有挑战性的基准数据集 PHOENIX-2014-T 和 ASLG-PC12 上进行了大量实验,其中我们的方法在 BLEU-4 方面的表现比以前的最佳解决方案提高了 1.65 和 1.42。
Apr, 2022
本研究提出了一种标志性的回译(SignBT)方法,利用大规模口语文本来协助手语翻译(SLT)的训练。此外,我们还发布了一个大规模的连续 SLT 数据集 CSL-Daily,提供口语翻译和注释。通过提出的回译方法,我们实现了对先前 SLT 方法的显着改善。
May, 2021
本研究提出了 STMC-Transformer 翻译系统,相对当前最先进技术,在 PHOENIX-Weather 2014T 数据集的亮度 - 文本翻译和视频 - 文本翻译方面提高了 5 和 7 BLEU。在 ASLG-PC12 数据集上,也有超过 16 BLEU 的提高。同时,我们证明了当前方法中的问题,即依赖于 gloss 监督会导致 SLT 表现不佳,并揭示了 gloss 是手语的低效表示方法,因此建议未来的 SLT 研究采用端到端的训练方法或使用不同的手语注释方式。
Apr, 2020
从人类翻译的角度出发,我们提出了一种基于多模态变压器架构的上下文感知翻译方法,通过利用上下文信息和自信预测来消除较弱的视觉线索,在最终的变压器解码器中组合来自视频、识别出的手语词汇和前面手语序列的上下文信息,显著提高了本文提出方法在较大规模数据集和公开数据集上的机器翻译性能,近乎翻倍地提高了基线方法的 BLEU-4 分数。
Aug, 2023
为了解决手语翻译领域(SLT)中数据不足和模态差异问题,本文提出了一种简单的统一神经模型 SLTUNET,并采用跨模态表示共享的策略,使其支持多个 SLT 相关任务的联合建模,其中包括手语翻译,手势码翻译和手语转文本翻译等。实验结果表明,SLTUNET 在使用机器翻译数据和优化技术进行改进后,在 PHOENIX-2014T 和 CSL-Daily 数据集上取得了具有竞争力的甚至达到最先进的性能,也首次使用 DGS 语料库进行 SLT,进一步证明了 SLTUNET 的有效性。
May, 2023
本文提出了一种简单的基于迁移学习的手语翻译模型,通过预训练模型的视觉网络和语言网络来完成迁移学习,进一步提高了手语翻译模型效果。经实验证明,该模型能够显著优于之前的基于手语翻译结果,为今后的手语翻译研究提供了有效的基准。
Mar, 2022