基于图模型的跨模态信息融合技术在神经手语翻译中的应用
该论文提出了一种新颖的用于手语翻译的深度学习体系结构,称为分层时空图神经网络,在高层和细节层次上建模手语,并使用图卷积和图自我注意机制来描述局部和全局信息特性,并在基准数据集上进行了实验验证。
Nov, 2021
从人类翻译的角度出发,我们提出了一种基于多模态变压器架构的上下文感知翻译方法,通过利用上下文信息和自信预测来消除较弱的视觉线索,在最终的变压器解码器中组合来自视频、识别出的手语词汇和前面手语序列的上下文信息,显著提高了本文提出方法在较大规模数据集和公开数据集上的机器翻译性能,近乎翻倍地提高了基线方法的 BLEU-4 分数。
Aug, 2023
为了解决手语翻译领域(SLT)中数据不足和模态差异问题,本文提出了一种简单的统一神经模型 SLTUNET,并采用跨模态表示共享的策略,使其支持多个 SLT 相关任务的联合建模,其中包括手语翻译,手势码翻译和手语转文本翻译等。实验结果表明,SLTUNET 在使用机器翻译数据和优化技术进行改进后,在 PHOENIX-2014T 和 CSL-Daily 数据集上取得了具有竞争力的甚至达到最先进的性能,也首次使用 DGS 语料库进行 SLT,进一步证明了 SLTUNET 的有效性。
May, 2023
通过无监督的神经机器翻译 (UNMT) 的成功,我们引入了一种无监督的手语翻译和生成网络 (USLNet),它能够从丰富的单模态(文本和视频)数据中学习,而不需要平行手语数据。USLNet 由两个主要组成部分组成:单模态重构模块(文本和视频),用于从相同模态的噪声版本重建输入;跨模态回译模块(文本 - 视频 - 文本和视频 - 文本 - 视频),其通过回译过程在不同模态下重建输入。与基于文本的 UNMT 中单模态回译过程不同,USLNet 面临着特征表示中的跨模态差异,其中文本和视频序列之间的长度和特征维度不匹配。我们提出了一种滑动窗口方法来解决文本与视频序列对齐的问题。据我们所知,USLNet 是首个能够以统一方式生成自然语言文本和手语视频的无监督手语翻译和生成模型。在 BBC-Oxford 手语数据集(BOBSL)和开放领域美国手语数据集 (OpenASL) 上的实验结果表明,USLNet 与有监督基线模型相比取得了竞争性的结果,表明其在手语翻译和生成方面的有效性。
Feb, 2024
本研究提出了一种任务感知的指令网络,即 TIN-SLT,用于手语翻译,通过引入指令模块和基于学习的特征融合策略到 Transformer 网络中,从而充分利用预训练模型的语言能力来进一步提高翻译性能。另外,通过探索手语词汇和目标口语的表示空间,我们提出了一种多级数据增强方案来调整训练集的数据分布。我们在两个具有挑战性的基准数据集 PHOENIX-2014-T 和 ASLG-PC12 上进行了大量实验,其中我们的方法在 BLEU-4 方面的表现比以前的最佳解决方案提高了 1.65 和 1.42。
Apr, 2022
本文研究了在连续手语识别和翻译中添加多模态信息的机制,通过将光流信息与 RGB 图像结合,丰富了与运动相关的特征。我们使用了一个轻量级的插件,不需要为新的模态包含单独的特征提取器,并在手语识别和翻译任务中应用了这些改变,提高了各自的性能。通过在 RWTH-PHOENIX-2014 数据集上进行评估,我们的方法在手语识别任务中将词错误率降低了 0.9,在翻译任务中,我们的方法在测试集上提高了大多数 BLEU 得分约 0.6。
Sep, 2023
为了解决手语翻译中视觉和文本之间的跨模态对齐问题,本研究提出了一种基于条件变分自编码器的新型框架(CV-SLT),通过引入两个 KL 散度来促进手语视频和口语文本之间的直接且充分的跨模态对齐。实验证明,该框架在公共数据集上取得了新的最先进结果,并显著减轻了跨模态表示差异。
Dec, 2023