基于条件变分自动编码器的手语翻译与跨模态对齐

AAAIDec, 2023

基于条件变分自动编码器的手语翻译与跨模态对齐

Conditional Variational Autoencoder for Sign Language Translation with Cross-Modal Alignment

Rui Zhao, Liang Zhang, Biao Fu, Cong Hu, Jinsong Su...

TL;DR为了解决手语翻译中视觉和文本之间的跨模态对齐问题，本研究提出了一种基于条件变分自编码器的新型框架（CV-SLT），通过引入两个 KL 散度来促进手语视频和口语文本之间的直接且充分的跨模态对齐。实验证明，该框架在公共数据集上取得了新的最先进结果，并显著减轻了跨模态表示差异。

Abstract

sign language translation (SLT) aims to convert continuous sign language videos into textual sentences. As a typical multi-modal task, there exists an inherent modality gap between sign language videos and spoken language text, which makes the →

sign language translation cross-modal alignment conditional variational autoencoder kl divergence shared attention residual gaussian distribution

发现论文，激发创造

CVT-SLR: 对比视觉 - 文本变换及变分对齐应用于手语识别

本文提出了一种新的对比视觉 - 文本转换（CVT-SLR）的方案，以充分探索视觉和语言模态的预训练知识，改进手语识别（SLR）的效果，实验结果表明其优于现有的单模态方法甚至优于 SOTA 多模态方法。

Mar, 2023

面向端到端手语翻译的跨模态数据增强

提出一种名为交叉模态数据增强（XmDA）的框架，以通过从标记数据中利用伪 Gloss-Text 对实现从手语视频到文本的端到端手语翻译

May, 2023

SignVTCL: 多模态连续手语识别的视觉 - 文本对比学习增强

利用多模态数据和语言模型的泛化能力，通过视觉 - 文本对比学习，提出了一种多模态连续手语识别框架 SignVTCL，它整合了视频、关键点和光流等多模态数据，训练了统一的视觉骨干并获得更强大的视觉表示，同时通过视觉 - 文本对齐方法在词汇和句级别确保视觉特征与手语之间的精确对应，实验结果表明，SignVTCL 在三个数据集上取得了领先于之前方法的最新成果。

Jan, 2024

基于图模型的跨模态信息融合技术在神经手语翻译中的应用

该研究提出了一种新颖的神经翻译模型，基于动态图和多模态特征融合，结合手语语言学上的语意信息，以解决其它神经模型中可能存在的语意信息缺失问题。实验表明该模型可以在手语翻译方面取得更好的效果。

Nov, 2022

通过跨模态增强提高连续手语识别能力

提出了一种基于连接时序分类 (CTC) 目标函数和交叉模态增强的新型架构，来提高连续手语识别系统的性能，通过实现词频错误率的计算过程实现跨模态数据的增强和伪数据生成，有效地拓宽了数据集，提升了预测准确率。

Oct, 2020

上下文是否足够？将神经手语翻译推广至广泛话题领域

从人类翻译的角度出发，我们提出了一种基于多模态变压器架构的上下文感知翻译方法，通过利用上下文信息和自信预测来消除较弱的视觉线索，在最终的变压器解码器中组合来自视频、识别出的手语词汇和前面手语序列的上下文信息，显著提高了本文提出方法在较大规模数据集和公开数据集上的机器翻译性能，近乎翻倍地提高了基线方法的 BLEU-4 分数。

Aug, 2023

条件变分自编码器用于神经机器翻译

探讨使用潜变量模型实现神经机器翻译中的条件文本生成性能，通过引入连续潜变量来增强编码器 - 解码器 NMT 范例，利用 Inference Network 中的共同关注机制来扩展该模型，使用不同方法试图缓解后验崩溃问题，并且探究学习潜空间的能力，该模型能有效地优化翻译模型。

Dec, 2018

无监督手语翻译与生成

通过无监督的神经机器翻译 (UNMT) 的成功，我们引入了一种无监督的手语翻译和生成网络 (USLNet)，它能够从丰富的单模态（文本和视频）数据中学习，而不需要平行手语数据。USLNet 由两个主要组成部分组成：单模态重构模块（文本和视频），用于从相同模态的噪声版本重建输入；跨模态回译模块（文本 - 视频 - 文本和视频 - 文本 - 视频），其通过回译过程在不同模态下重建输入。与基于文本的 UNMT 中单模态回译过程不同，USLNet 面临着特征表示中的跨模态差异，其中文本和视频序列之间的长度和特征维度不匹配。我们提出了一种滑动窗口方法来解决文本与视频序列对齐的问题。据我们所知，USLNet 是首个能够以统一方式生成自然语言文本和手语视频的无监督手语翻译和生成模型。在 BBC-Oxford 手语数据集（BOBSL）和开放领域美国手语数据集 (OpenASL) 上的实验结果表明，USLNet 与有监督基线模型相比取得了竞争性的结果，表明其在手语翻译和生成方面的有效性。

Feb, 2024

无术语手语翻译：基于视觉 - 语言预训练的改进

基于视觉 - 语言预训练的无手语互译（GFSLT-VLP）方法通过结合对比式语言 - 图像预训练（CLIP）和掩码自监督学习，构建了一个端到端的模型，实现了在 PHOENIX14T 数据集上的 BLEU-4 分数大幅提升（> +5），取得了与最先进的无手语互译方法相当的竞争性结果。

Jul, 2023

注意力驱动的多模态融合：增强手语识别和翻译

本文研究了在连续手语识别和翻译中添加多模态信息的机制，通过将光流信息与 RGB 图像结合，丰富了与运动相关的特征。我们使用了一个轻量级的插件，不需要为新的模态包含单独的特征提取器，并在手语识别和翻译任务中应用了这些改变，提高了各自的性能。通过在 RWTH-PHOENIX-2014 数据集上进行评估，我们的方法在手语识别任务中将词错误率降低了 0.9，在翻译任务中，我们的方法在测试集上提高了大多数 BLEU 得分约 0.6。

Sep, 2023