无术语手语翻译：基于视觉 - 语言预训练的改进

ICCVJul, 2023

无术语手语翻译：基于视觉 - 语言预训练的改进

Gloss-free Sign Language Translation: Improving from Visual-Language Pretraining

Benjia Zhou, Zhigang Chen, Albert Clapés, Jun Wan, Yanyan Liang...

TL;DR基于视觉 - 语言预训练的无手语互译（GFSLT-VLP）方法通过结合对比式语言 - 图像预训练（CLIP）和掩码自监督学习，构建了一个端到端的模型，实现了在 PHOENIX14T 数据集上的 BLEU-4 分数大幅提升（> +5），取得了与最先进的无手语互译方法相当的竞争性结果。

Abstract

sign language translation (SLT) is a challenging task due to its cross-domain nature, involving the translation of visual-gestural language to text. Many previous methods employ an intermediate representation, i.e., gloss sequences, to facilitate SLT, thus transforming it into a two-st

sign language translation gloss-free slt visual-language pretraining clip phoenix14t dataset

发现论文，激发创造

通过减少表示密度来改善无光泽手语翻译

在这篇论文中，我们发现表示密度问题是妨碍无法使用例句注释式手语翻译系统性能的瓶颈，并引入了一种名为 SignCL 的简单但有效的对比学习策略来解决这个问题，通过自我监督的方式改善了无法使用例句注释式方法中特征表示的可区分性。实验证明，SignCL 显著减少了表示密度，并在各种翻译框架上提高了性能，在 CSL-Daily 数据集上，SignCL 使得手语变形器和 GFSLT-VLP 的 BLEU 得分分别提高了 39％和 46％，而模型参数没有增加。与基于大规模预训练视觉和语言模型的最先进方法 Sign2GPT 相比，SignCL 只使用了其参数的 35％并获得了更好的性能。

May, 2024

非干涉式端到端手语翻译

本文介绍了 GloFE 框架，该框架解决了无手语注释的手语翻译问题，并通过利用手语和口语的共同语义以及密码比对，在包括 OpenASL 和 How2Sign 在内的大型数据集上获得了最新的结果。

May, 2023

手语术语翻译的数据增强

该研究提出了两个基于规则的启发式方法，从而提高了手语到文本翻译的机器翻译准确性，并成功地将美国手语（ASL）翻译成英语和德国手语（DGS）翻译成德语。

May, 2021

因子化学习辅助大型语言模型用于无术语手语翻译

通过引入已训练好的大型语言模型，并结合因式化学习的策略，我们提出了一种无需标注词汇的手语翻译方法，证明其在三个手语翻译数据集上都取得了显著的改进。

Mar, 2024

使用单语数据改进手语翻译

提出一种转录目标单语言数据为其伪吉祥语的简单高效的规则转换方法，从而增强 SLT 翻译的自动化，实验结果表明，该方法能够显着提高 SLT 的性能，尤其是在 PHEONIX-WEATHER 2014T 和 ASLG-PC12 等两个 SLT 基准数据集上实现了最新成果。

Apr, 2023

Sign2GPT：利用大型语言模型进行无术语手语翻译

利用大规模预训练视觉和语言模型通过轻量级适配器实现无语言标注的手语翻译的新型框架 Sign2GPT，在两个公共基准手语翻译数据集上评估并取得明显优于现有技术的无语言标注翻译性能提升。

May, 2024

光泽无关手语翻译的注视注意力

本文提出了 GASLT 模型，使用 gloss attention 帮助模型理解手语视频，以及从自然语言模型中传递句子相似性的知识来帮助模型理解手语视频，实验结果表明，我们的 GASLT 模型在多个大型手语数据集上明显优于现有方法。

Jul, 2023

简单的多模态迁移学习基准方法用于手语翻译

本文提出了一种简单的基于迁移学习的手语翻译模型，通过预训练模型的视觉网络和语言网络来完成迁移学习，进一步提高了手语翻译模型效果。经实验证明，该模型能够显著优于之前的基于手语翻译结果，为今后的手语翻译研究提供了有效的基准。

Mar, 2022

朝着规模化的注重隐私的手语翻译

通过两阶段的框架提出了 SSVP-SLT，该框架应对了缺乏对齐字幕的手语数据的问题，并解决了基于大规模网络抓取的数据集存在的隐私风险，通过自监督视频预训练和面部模糊化来提高 SLT 性能和保护隐私。

Feb, 2024

探索更多指导：一种基于任务感知的指令网络，利用数据增强提高手语翻译

本研究提出了一种任务感知的指令网络，即 TIN-SLT，用于手语翻译，通过引入指令模块和基于学习的特征融合策略到 Transformer 网络中，从而充分利用预训练模型的语言能力来进一步提高翻译性能。另外，通过探索手语词汇和目标口语的表示空间，我们提出了一种多级数据增强方案来调整训练集的数据分布。我们在两个具有挑战性的基准数据集 PHOENIX-2014-T 和 ASLG-PC12 上进行了大量实验，其中我们的方法在 BLEU-4 方面的表现比以前的最佳解决方案提高了 1.65 和 1.42。

Apr, 2022