该研究提出了两个基于规则的启发式方法,从而提高了手语到文本翻译的机器翻译准确性,并成功地将美国手语(ASL)翻译成英语和德国手语(DGS)翻译成德语。
May, 2021
利用大规模预训练视觉和语言模型通过轻量级适配器实现无语言标注的手语翻译的新型框架 Sign2GPT,在两个公共基准手语翻译数据集上评估并取得明显优于现有技术的无语言标注翻译性能提升。
May, 2024
本研究提出了一种标志性的回译(SignBT)方法,利用大规模口语文本来协助手语翻译(SLT)的训练。此外,我们还发布了一个大规模的连续 SLT 数据集 CSL-Daily,提供口语翻译和注释。通过提出的回译方法,我们实现了对先前 SLT 方法的显着改善。
基于视觉 - 语言预训练的无手语互译(GFSLT-VLP)方法通过结合对比式语言 - 图像预训练(CLIP)和掩码自监督学习,构建了一个端到端的模型,实现了在 PHOENIX14T 数据集上的 BLEU-4 分数大幅提升(> +5),取得了与最先进的无手语互译方法相当的竞争性结果。
Jul, 2023
本研究提出了 STMC-Transformer 翻译系统,相对当前最先进技术,在 PHOENIX-Weather 2014T 数据集的亮度 - 文本翻译和视频 - 文本翻译方面提高了 5 和 7 BLEU。在 ASLG-PC12 数据集上,也有超过 16 BLEU 的提高。同时,我们证明了当前方法中的问题,即依赖于 gloss 监督会导致 SLT 表现不佳,并揭示了 gloss 是手语的低效表示方法,因此建议未来的 SLT 研究采用端到端的训练方法或使用不同的手语注释方式。
Apr, 2020
本文介绍了 GloFE 框架,该框架解决了无手语注释的手语翻译问题,并通过利用手语和口语的共同语义以及密码比对,在包括 OpenASL 和 How2Sign 在内的大型数据集上获得了最新的结果。
May, 2023
通过两阶段的框架提出了 SSVP-SLT,该框架应对了缺乏对齐字幕的手语数据的问题,并解决了基于大规模网络抓取的数据集存在的隐私风险,通过自监督视频预训练和面部模糊化来提高 SLT 性能和保护隐私。
Feb, 2024
我们的研究通过利用预训练的大型语言模型(LLMs)、数据增强和新的标签平滑损失函数,在中间注释的视频中,专注于 Gloss2Text 翻译阶段,并在 PHOENIX Weather 2014T 数据集上的广泛实验和消融研究中取得了显著的性能提升,为手语翻译领域的研究和发展提供了有效的方法和有前景的方向。
Jul, 2024
本文提出了 GASLT 模型,使用 gloss attention 帮助模型理解手语视频,以及从自然语言模型中传递句子相似性的知识来帮助模型理解手语视频,实验结果表明,我们的 GASLT 模型在多个大型手语数据集上明显优于现有方法。
该研究提出了一种新的关键点规范化方法和随机帧选择方法,用于改进手语翻译性能,并使用基于注意力机制的翻译模型将手语视频直接翻译成口语。
Apr, 2022