基于视觉 - 语言预训练的无手语互译(GFSLT-VLP)方法通过结合对比式语言 - 图像预训练(CLIP)和掩码自监督学习,构建了一个端到端的模型,实现了在 PHOENIX14T 数据集上的 BLEU-4 分数大幅提升(> +5),取得了与最先进的无手语互译方法相当的竞争性结果。
Jul, 2023
本文提出了 GASLT 模型,使用 gloss attention 帮助模型理解手语视频,以及从自然语言模型中传递句子相似性的知识来帮助模型理解手语视频,实验结果表明,我们的 GASLT 模型在多个大型手语数据集上明显优于现有方法。
在这篇论文中,我们发现表示密度问题是妨碍无法使用例句注释式手语翻译系统性能的瓶颈,并引入了一种名为 SignCL 的简单但有效的对比学习策略来解决这个问题,通过自我监督的方式改善了无法使用例句注释式方法中特征表示的可区分性。实验证明,SignCL 显著减少了表示密度,并在各种翻译框架上提高了性能,在 CSL-Daily 数据集上,SignCL 使得手语变形器和 GFSLT-VLP 的 BLEU 得分分别提高了 39%和 46%,而模型参数没有增加。与基于大规模预训练视觉和语言模型的最先进方法 Sign2GPT 相比,SignCL 只使用了其参数的 35%并获得了更好的性能。
May, 2024
该研究提出了两个基于规则的启发式方法,从而提高了手语到文本翻译的机器翻译准确性,并成功地将美国手语(ASL)翻译成英语和德国手语(DGS)翻译成德语。
May, 2021
通过引入 Universal Gloss-level Representation (UniGloR),我们提出了一个统一的自监督解决方案,用于手语翻译和手语生成任务,并在各项任务中展示了 UniGloR 的有效性。我们的研究表明,自监督学习可以以统一的方式进行,为未来的创新与实际应用铺平了道路。
Jul, 2024
提出一种转录目标单语言数据为其伪吉祥语的简单高效的规则转换方法,从而增强 SLT 翻译的自动化,实验结果表明,该方法能够显着提高 SLT 的性能,尤其是在 PHEONIX-WEATHER 2014T 和 ASLG-PC12 等两个 SLT 基准数据集上实现了最新成果。
Apr, 2023
该研究提出了一种新的关键点规范化方法和随机帧选择方法,用于改进手语翻译性能,并使用基于注意力机制的翻译模型将手语视频直接翻译成口语。
Apr, 2022
通过引入已训练好的大型语言模型,并结合因式化学习的策略,我们提出了一种无需标注词汇的手语翻译方法,证明其在三个手语翻译数据集上都取得了显著的改进。
Mar, 2024
利用大规模预训练视觉和语言模型通过轻量级适配器实现无语言标注的手语翻译的新型框架 Sign2GPT,在两个公共基准手语翻译数据集上评估并取得明显优于现有技术的无语言标注翻译性能提升。
我们的研究通过利用预训练的大型语言模型(LLMs)、数据增强和新的标签平滑损失函数,在中间注释的视频中,专注于 Gloss2Text 翻译阶段,并在 PHOENIX Weather 2014T 数据集上的广泛实验和消融研究中取得了显著的性能提升,为手语翻译领域的研究和发展提供了有效的方法和有前景的方向。