VK-G2T：视觉和上下文知识增强的 Gloss2Text

Dec, 2023

VK-G2T：视觉和上下文知识增强的 Gloss2Text

VK-G2T: Vision and Context Knowledge enhanced Gloss2Text

Liqiang Jing, Xuemeng Song, Xinxing Zu, Na Zheng, Zhongzhou Zhao...

TL;DR通过视觉内容和上下文知识加强的 VK-G2T 模型，在中文基准测试中取得了优越的成果。

Abstract

Existing sign language translation methods follow a two-stage pipeline: first converting the sign language video to a gloss sequence (i.e. Sign2Gloss) and then translating the generated →

sign language translation gloss sequence gloss2text vk-g2t context knowledge

发现论文，激发创造

Gloss2Text: 使用 LLMs 和语义感知标签平滑的手语标记翻译

我们的研究通过利用预训练的大型语言模型（LLMs）、数据增强和新的标签平滑损失函数，在中间注释的视频中，专注于 Gloss2Text 翻译阶段，并在 PHOENIX Weather 2014T 数据集上的广泛实验和消融研究中取得了显著的性能提升，为手语翻译领域的研究和发展提供了有效的方法和有前景的方向。

Jul, 2024

Sign2GPT：利用大型语言模型进行无术语手语翻译

利用大规模预训练视觉和语言模型通过轻量级适配器实现无语言标注的手语翻译的新型框架 Sign2GPT，在两个公共基准手语翻译数据集上评估并取得明显优于现有技术的无语言标注翻译性能提升。

May, 2024

使用单语数据改进手语翻译

提出一种转录目标单语言数据为其伪吉祥语的简单高效的规则转换方法，从而增强 SLT 翻译的自动化，实验结果表明，该方法能够显着提高 SLT 的性能，尤其是在 PHEONIX-WEATHER 2014T 和 ASLG-PC12 等两个 SLT 基准数据集上实现了最新成果。

Apr, 2023

手语术语翻译的数据增强

该研究提出了两个基于规则的启发式方法，从而提高了手语到文本翻译的机器翻译准确性，并成功地将美国手语（ASL）翻译成英语和德国手语（DGS）翻译成德语。

May, 2021

无术语手语翻译：基于视觉 - 语言预训练的改进

基于视觉 - 语言预训练的无手语互译（GFSLT-VLP）方法通过结合对比式语言 - 图像预训练（CLIP）和掩码自监督学习，构建了一个端到端的模型，实现了在 PHOENIX14T 数据集上的 BLEU-4 分数大幅提升（> +5），取得了与最先进的无手语互译方法相当的竞争性结果。

Jul, 2023

光泽无关手语翻译的注视注意力

本文提出了 GASLT 模型，使用 gloss attention 帮助模型理解手语视频，以及从自然语言模型中传递句子相似性的知识来帮助模型理解手语视频，实验结果表明，我们的 GASLT 模型在多个大型手语数据集上明显优于现有方法。

Jul, 2023

SignVTCL: 多模态连续手语识别的视觉 - 文本对比学习增强

利用多模态数据和语言模型的泛化能力，通过视觉 - 文本对比学习，提出了一种多模态连续手语识别框架 SignVTCL，它整合了视频、关键点和光流等多模态数据，训练了统一的视觉骨干并获得更强大的视觉表示，同时通过视觉 - 文本对齐方法在词汇和句级别确保视觉特征与手语之间的精确对应，实验结果表明，SignVTCL 在三个数据集上取得了领先于之前方法的最新成果。

Jan, 2024

非干涉式端到端手语翻译

本文介绍了 GloFE 框架，该框架解决了无手语注释的手语翻译问题，并通过利用手语和口语的共同语义以及密码比对，在包括 OpenASL 和 How2Sign 在内的大型数据集上获得了最新的结果。

May, 2023

利用领域文本生成对回译进行缩放，用于手语术语翻译

本文提出了一种 Prompt-based domain text generation (PGEN) 方法来克服标记稀缺性问题，该方法使用预训练语言模型（即 GPT-2）生成类似于原始领域口语的文本，通过该方法生成的口语文本用于 BT 技术，实现了手语标记翻译方面的显着性能提升，并且 PGEN 生成的口语文本规模越大，BT 技术的效果越好。

Oct, 2022

口语转手语翻译开源基于词汇的基线

本篇研究实现了一个从文字到手语的系统，并提出了三个不同的组件来实现文字到手语的转换，包括一个词形还原器、一个基于规则的单词重排和删除组件以及一个神经机器翻译系统。将手语姿势从视频中提取出来，用于三种不同的手语语言中的词汇表进行手语姿势转换。最后，将运行文字到手语系统，并将生成的手势姿势组合起来生成一句话。

May, 2023