无监督手语翻译与生成

Feb, 2024

Unsupervised Sign Language Translation and Generation

Zhengsheng Guo, Zhiwei He, Wenxiang Jiao, Xing Wang, Rui Wang...

TL;DR通过无监督的神经机器翻译 (UNMT) 的成功，我们引入了一种无监督的手语翻译和生成网络 (USLNet)，它能够从丰富的单模态（文本和视频）数据中学习，而不需要平行手语数据。USLNet 由两个主要组成部分组成：单模态重构模块（文本和视频），用于从相同模态的噪声版本重建输入；跨模态回译模块（文本 - 视频 - 文本和视频 - 文本 - 视频），其通过回译过程在不同模态下重建输入。与基于文本的 UNMT 中单模态回译过程不同，USLNet 面临着特征表示中的跨模态差异，其中文本和视频序列之间的长度和特征维度不匹配。我们提出了一种滑动窗口方法来解决文本与视频序列对齐的问题。据我们所知，USLNet 是首个能够以统一方式生成自然语言文本和手语视频的无监督手语翻译和生成模型。在 BBC-Oxford 手语数据集（BOBSL）和开放领域美国手语数据集 (OpenASL) 上的实验结果表明，USLNet 与有监督基线模型相比取得了竞争性的结果，表明其在手语翻译和生成方面的有效性。

Abstract

Motivated by the success of unsupervised neural machine translation (UNMT), we introduce an unsupervised sign language translation and generation network (→

unsupervised sign language translation neural machine translation uslnet cross-modality back-translation sign language video

发现论文，激发创造

SLTUNET：一种简单的统一手语翻译模型

为了解决手语翻译领域（SLT）中数据不足和模态差异问题，本文提出了一种简单的统一神经模型 SLTUNET，并采用跨模态表示共享的策略，使其支持多个 SLT 相关任务的联合建模，其中包括手语翻译，手势码翻译和手语转文本翻译等。实验结果表明，SLTUNET 在使用机器翻译数据和优化技术进行改进后，在 PHOENIX-2014T 和 CSL-Daily 数据集上取得了具有竞争力的甚至达到最先进的性能，也首次使用 DGS 语料库进行 SLT，进一步证明了 SLTUNET 的有效性。

May, 2023

基于图模型的跨模态信息融合技术在神经手语翻译中的应用

该研究提出了一种新颖的神经翻译模型，基于动态图和多模态特征融合，结合手语语言学上的语意信息，以解决其它神经模型中可能存在的语意信息缺失问题。实验表明该模型可以在手语翻译方面取得更好的效果。

Nov, 2022

上下文是否足够？将神经手语翻译推广至广泛话题领域

从人类翻译的角度出发，我们提出了一种基于多模态变压器架构的上下文感知翻译方法，通过利用上下文信息和自信预测来消除较弱的视觉线索，在最终的变压器解码器中组合来自视频、识别出的手语词汇和前面手语序列的上下文信息，显著提高了本文提出方法在较大规模数据集和公开数据集上的机器翻译性能，近乎翻倍地提高了基线方法的 BLEU-4 分数。

Aug, 2023

探索更多指导：一种基于任务感知的指令网络，利用数据增强提高手语翻译

本研究提出了一种任务感知的指令网络，即 TIN-SLT，用于手语翻译，通过引入指令模块和基于学习的特征融合策略到 Transformer 网络中，从而充分利用预训练模型的语言能力来进一步提高翻译性能。另外，通过探索手语词汇和目标口语的表示空间，我们提出了一种多级数据增强方案来调整训练集的数据分布。我们在两个具有挑战性的基准数据集 PHOENIX-2014-T 和 ASLG-PC12 上进行了大量实验，其中我们的方法在 BLEU-4 方面的表现比以前的最佳解决方案提高了 1.65 和 1.42。

Apr, 2022

基于条件变分自动编码器的手语翻译与跨模态对齐

为了解决手语翻译中视觉和文本之间的跨模态对齐问题，本研究提出了一种基于条件变分自编码器的新型框架（CV-SLT），通过引入两个 KL 散度来促进手语视频和口语文本之间的直接且充分的跨模态对齐。实验证明，该框架在公共数据集上取得了新的最先进结果，并显著减轻了跨模态表示差异。

Dec, 2023

无监督多模态神经机器翻译

本研究提出了一种基于多模态机器翻译框架的无监督神经机器翻译方法，通过图像识别加强双向多模态翻译的学习效果，在 Multi30K 数据集上与传统基于文本的神经机器翻译相比，本方法有更好的实验结果。

Nov, 2018

LLMs 是优秀的手语翻译器

使用大型语言模型训练手语翻译任务，提出了 SignLLM 框架，将手语视频转换为类似语言的表示，通过两个关键模块进行转换，同时采用标记对齐损失来增强语义兼容性，在两个广泛使用的手语翻译基准测试中取得了最先进的无注释结果。

Apr, 2024

手语术语翻译的数据增强

该研究提出了两个基于规则的启发式方法，从而提高了手语到文本翻译的机器翻译准确性，并成功地将美国手语（ASL）翻译成英语和德国手语（DGS）翻译成德语。

May, 2021

无术语手语翻译：基于视觉 - 语言预训练的改进

基于视觉 - 语言预训练的无手语互译（GFSLT-VLP）方法通过结合对比式语言 - 图像预训练（CLIP）和掩码自监督学习，构建了一个端到端的模型，实现了在 PHOENIX14T 数据集上的 BLEU-4 分数大幅提升（> +5），取得了与最先进的无手语互译方法相当的竞争性结果。

Jul, 2023

朝着规模化的注重隐私的手语翻译

通过两阶段的框架提出了 SSVP-SLT，该框架应对了缺乏对齐字幕的手语数据的问题，并解决了基于大规模网络抓取的数据集存在的隐私风险，通过自监督视频预训练和面部模糊化来提高 SLT 性能和保护隐私。

Feb, 2024