引入一种混合式 SLT 方法 Spotter+GPT,旨在从手语视频中生成口语句子,通过训练在语言手语数据集上的手语识别器和预训练的大型语言模型来提高 SLT 性能。
Mar, 2024
本研究提出了 STMC-Transformer 翻译系统,相对当前最先进技术,在 PHOENIX-Weather 2014T 数据集的亮度 - 文本翻译和视频 - 文本翻译方面提高了 5 和 7 BLEU。在 ASLG-PC12 数据集上,也有超过 16 BLEU 的提高。同时,我们证明了当前方法中的问题,即依赖于 gloss 监督会导致 SLT 表现不佳,并揭示了 gloss 是手语的低效表示方法,因此建议未来的 SLT 研究采用端到端的训练方法或使用不同的手语注释方式。
Apr, 2020
从人类翻译的角度出发,我们提出了一种基于多模态变压器架构的上下文感知翻译方法,通过利用上下文信息和自信预测来消除较弱的视觉线索,在最终的变压器解码器中组合来自视频、识别出的手语词汇和前面手语序列的上下文信息,显著提高了本文提出方法在较大规模数据集和公开数据集上的机器翻译性能,近乎翻倍地提高了基线方法的 BLEU-4 分数。
Aug, 2023
该研究使用 Transformer 和 I3D 视频特征对 How2Sign 数据集进行训练,并以降低的 BLEU 作为参考指标,获得了 8.03 的 BLEU 得分,提供了第一个开源实现,推进了自动手语翻译技术的发展。
Apr, 2023
提出 ConSLT,结合对比学习和手语翻译的解码过程,从而学习有效的标记表示,实验结果表明,ConSLT 比强基线表现更好。
Apr, 2022
通过引入已训练好的大型语言模型,并结合因式化学习的策略,我们提出了一种无需标注词汇的手语翻译方法,证明其在三个手语翻译数据集上都取得了显著的改进。
经过改进,我们开发了一种新方法来制作高质量的手语视频,不需要使用人类姿势作为中间步骤。与之前的方法相比,我们的模型在两个手语数据集上表现更好。
Dec, 2023
基于视觉 - 语言预训练的无手语互译(GFSLT-VLP)方法通过结合对比式语言 - 图像预训练(CLIP)和掩码自监督学习,构建了一个端到端的模型,实现了在 PHOENIX14T 数据集上的 BLEU-4 分数大幅提升(> +5),取得了与最先进的无手语互译方法相当的竞争性结果。
Jul, 2023
本研究介绍了 Prompt2Sign,第一个全面的多语种手语数据集,此数据集包括美国手语和其他七种手语。我们还提出了 SignLLM,第一个多语种手语生成模型,包括两种新的多语种手语生成模式。基于该数据集,我们展示了 SignLLM 的基准结果,表明我们的模型在八种手语的手语生成任务中达到了最先进的性能。
May, 2024
该研究提出了一种新的关键点规范化方法和随机帧选择方法,用于改进手语翻译性能,并使用基于注意力机制的翻译模型将手语视频直接翻译成口语。