LLMs 是优秀的手语翻译器

CVPRApr, 2024

LLMs are Good Sign Language Translators

Jia Gong, Lin Geng Foo, Yixuan He, Hossein Rahmani, Jun Liu

TL;DR使用大型语言模型训练手语翻译任务，提出了 SignLLM 框架，将手语视频转换为类似语言的表示，通过两个关键模块进行转换，同时采用标记对齐损失来增强语义兼容性，在两个广泛使用的手语翻译基准测试中取得了最先进的无注释结果。

Abstract

sign language translation (SLT) is a challenging task that aims to translate sign videos into spoken language. Inspired by the strong translation capabilities of large language models (LLMs) that are trained on e

sign language translation large language models signllm framework vector-quantized visual sign module sign-text alignment loss

发现论文，激发创造

使用 LLM 将标志识别转换为口语句子

引入一种混合式 SLT 方法 Spotter+GPT，旨在从手语视频中生成口语句子，通过训练在语言手语数据集上的手语识别器和预训练的大型语言模型来提高 SLT 性能。

Mar, 2024

基于 STMC-Transformer 的更好手语翻译

本研究提出了 STMC-Transformer 翻译系统，相对当前最先进技术，在 PHOENIX-Weather 2014T 数据集的亮度 - 文本翻译和视频 - 文本翻译方面提高了 5 和 7 BLEU。在 ASLG-PC12 数据集上，也有超过 16 BLEU 的提高。同时，我们证明了当前方法中的问题，即依赖于 gloss 监督会导致 SLT 表现不佳，并揭示了 gloss 是手语的低效表示方法，因此建议未来的 SLT 研究采用端到端的训练方法或使用不同的手语注释方式。

Apr, 2020

上下文是否足够？将神经手语翻译推广至广泛话题领域

从人类翻译的角度出发，我们提出了一种基于多模态变压器架构的上下文感知翻译方法，通过利用上下文信息和自信预测来消除较弱的视觉线索，在最终的变压器解码器中组合来自视频、识别出的手语词汇和前面手语序列的上下文信息，显著提高了本文提出方法在较大规模数据集和公开数据集上的机器翻译性能，近乎翻倍地提高了基线方法的 BLEU-4 分数。

Aug, 2023

指令视频中的手语翻译

该研究使用 Transformer 和 I3D 视频特征对 How2Sign 数据集进行训练，并以降低的 BLEU 作为参考指标，获得了 8.03 的 BLEU 得分，提供了第一个开源实现，推进了自动手语翻译技术的发展。

Apr, 2023

一种面向手语翻译的令牌级对比框架

提出 ConSLT，结合对比学习和手语翻译的解码过程，从而学习有效的标记表示，实验结果表明，ConSLT 比强基线表现更好。

Apr, 2022

因子化学习辅助大型语言模型用于无术语手语翻译

通过引入已训练好的大型语言模型，并结合因式化学习的策略，我们提出了一种无需标注词汇的手语翻译方法，证明其在三个手语翻译数据集上都取得了显著的改进。

Mar, 2024

使用隐藏动态变换器进行手语产生

经过改进，我们开发了一种新方法来制作高质量的手语视频，不需要使用人类姿势作为中间步骤。与之前的方法相比，我们的模型在两个手语数据集上表现更好。

Dec, 2023

无术语手语翻译：基于视觉 - 语言预训练的改进

基于视觉 - 语言预训练的无手语互译（GFSLT-VLP）方法通过结合对比式语言 - 图像预训练（CLIP）和掩码自监督学习，构建了一个端到端的模型，实现了在 PHOENIX14T 数据集上的 BLEU-4 分数大幅提升（> +5），取得了与最先进的无手语互译方法相当的竞争性结果。

Jul, 2023

SignLLM：手语制作大型语言模型

本研究介绍了 Prompt2Sign，第一个全面的多语种手语数据集，此数据集包括美国手语和其他七种手语。我们还提出了 SignLLM，第一个多语种手语生成模型，包括两种新的多语种手语生成模式。基于该数据集，我们展示了 SignLLM 的基准结果，表明我们的模型在八种手语的手语生成任务中达到了最先进的性能。

May, 2024

基于关键点的手语翻译技术（无须手语词汇）

该研究提出了一种新的关键点规范化方法和随机帧选择方法，用于改进手语翻译性能，并使用基于注意力机制的翻译模型将手语视频直接翻译成口语。

Apr, 2022