从人类翻译的角度出发,我们提出了一种基于多模态变压器架构的上下文感知翻译方法,通过利用上下文信息和自信预测来消除较弱的视觉线索,在最终的变压器解码器中组合来自视频、识别出的手语词汇和前面手语序列的上下文信息,显著提高了本文提出方法在较大规模数据集和公开数据集上的机器翻译性能,近乎翻倍地提高了基线方法的 BLEU-4 分数。
Aug, 2023
基于视觉 - 语言预训练的无手语互译(GFSLT-VLP)方法通过结合对比式语言 - 图像预训练(CLIP)和掩码自监督学习,构建了一个端到端的模型,实现了在 PHOENIX14T 数据集上的 BLEU-4 分数大幅提升(> +5),取得了与最先进的无手语互译方法相当的竞争性结果。
Jul, 2023
该研究提出了一种新颖的神经翻译模型,基于动态图和多模态特征融合,结合手语语言学上的语意信息,以解决其它神经模型中可能存在的语意信息缺失问题。实验表明该模型可以在手语翻译方面取得更好的效果。
Nov, 2022
为了解决手语翻译领域(SLT)中数据不足和模态差异问题,本文提出了一种简单的统一神经模型 SLTUNET,并采用跨模态表示共享的策略,使其支持多个 SLT 相关任务的联合建模,其中包括手语翻译,手势码翻译和手语转文本翻译等。实验结果表明,SLTUNET 在使用机器翻译数据和优化技术进行改进后,在 PHOENIX-2014T 和 CSL-Daily 数据集上取得了具有竞争力的甚至达到最先进的性能,也首次使用 DGS 语料库进行 SLT,进一步证明了 SLTUNET 的有效性。
May, 2023
使用大型语言模型训练手语翻译任务,提出了 SignLLM 框架,将手语视频转换为类似语言的表示,通过两个关键模块进行转换,同时采用标记对齐损失来增强语义兼容性,在两个广泛使用的手语翻译基准测试中取得了最先进的无注释结果。
Apr, 2024
本文旨在通过使用多语言方法探究转移学习在以端到端神经模型进行口语翻译中的有效性,结果表明,使用目标语言嵌入语义空间可以更有效地区分不同目标语言并改进结果,其中当对相似语言进行翻译时效果更为显著,特别是数据不足的情况下。
Oct, 2019
该研究提出了两个基于规则的启发式方法,从而提高了手语到文本翻译的机器翻译准确性,并成功地将美国手语(ASL)翻译成英语和德国手语(DGS)翻译成德语。
May, 2021
本文提出一种端到端模型,不需要手势序列,只使用文本,其由 Transformer 网络和一种新型的局部赢者采取所有层组成,并演示了其在 PHOENIX 2014T 基准测试中达到了最佳 BLEU-4 分数,但没有使用手势进行模型训练,并且内存占用减少了 70%以上。
Sep, 2021
本研究提出了 STMC-Transformer 翻译系统,相对当前最先进技术,在 PHOENIX-Weather 2014T 数据集的亮度 - 文本翻译和视频 - 文本翻译方面提高了 5 和 7 BLEU。在 ASLG-PC12 数据集上,也有超过 16 BLEU 的提高。同时,我们证明了当前方法中的问题,即依赖于 gloss 监督会导致 SLT 表现不佳,并揭示了 gloss 是手语的低效表示方法,因此建议未来的 SLT 研究采用端到端的训练方法或使用不同的手语注释方式。
Apr, 2020
该研究提出了一种新的关键点规范化方法和随机帧选择方法,用于改进手语翻译性能,并使用基于注意力机制的翻译模型将手语视频直接翻译成口语。
Apr, 2022