迭代原型的手语翻译

ICCVAug, 2023

Sign Language Translation with Iterative Prototype

Huijie Yao, Wengang Zhou, Hao Feng, Hezhen Hu, Hao Zhou...

TL;DR该论文介绍了 IP-SLT，这是一个简单而有效的手语翻译框架，通过迭代改善方式，增强了输入手语视频的语义表达（原型）。通过特征提取、原型初始化和迭代原型改进，IP-SLT 能够准确理解手语，并将其流畅和恰当地翻译成文本。

Abstract

This paper presents ip-slt, a simple yet effective framework for sign language translation (SLT). Our ip-slt adopts a recurrent structure and enhances the →

sign language translation ip-slt semantic representation iterative refinement cross-attention mechanism

发现论文，激发创造

无术语手语翻译：基于视觉 - 语言预训练的改进

基于视觉 - 语言预训练的无手语互译（GFSLT-VLP）方法通过结合对比式语言 - 图像预训练（CLIP）和掩码自监督学习，构建了一个端到端的模型，实现了在 PHOENIX14T 数据集上的 BLEU-4 分数大幅提升（> +5），取得了与最先进的无手语互译方法相当的竞争性结果。

Jul, 2023

探索更多指导：一种基于任务感知的指令网络，利用数据增强提高手语翻译

本研究提出了一种任务感知的指令网络，即 TIN-SLT，用于手语翻译，通过引入指令模块和基于学习的特征融合策略到 Transformer 网络中，从而充分利用预训练模型的语言能力来进一步提高翻译性能。另外，通过探索手语词汇和目标口语的表示空间，我们提出了一种多级数据增强方案来调整训练集的数据分布。我们在两个具有挑战性的基准数据集 PHOENIX-2014-T 和 ASLG-PC12 上进行了大量实验，其中我们的方法在 BLEU-4 方面的表现比以前的最佳解决方案提高了 1.65 和 1.42。

Apr, 2022

TSPNet: 基于时间语义金字塔的手语翻译分层特征学习

本文提出了一种基于多种时间粒度的新型手语视频片段表示法，通过时空语义金字塔网络 (TSPNet) 来实现手势识别和特征学习，该方法加强了前沿技术的表现并优化了手语翻译过程。

Oct, 2020

基于 STMC-Transformer 的更好手语翻译

本研究提出了 STMC-Transformer 翻译系统，相对当前最先进技术，在 PHOENIX-Weather 2014T 数据集的亮度 - 文本翻译和视频 - 文本翻译方面提高了 5 和 7 BLEU。在 ASLG-PC12 数据集上，也有超过 16 BLEU 的提高。同时，我们证明了当前方法中的问题，即依赖于 gloss 监督会导致 SLT 表现不佳，并揭示了 gloss 是手语的低效表示方法，因此建议未来的 SLT 研究采用端到端的训练方法或使用不同的手语注释方式。

Apr, 2020

渐进式变形器用于端到端手语生成

该论文提出了一种名为 Progressive Transformers 的新型架构，旨在将离散文本语言句子翻译成表示手语的连续 3D 骨架姿势输出，从而实现自动手语翻译，作者在文中还提出了几种数据增强处理方式以克服漂移问题并提高手语翻译性能，在 RWTH-PHOENIX-Weather-2014T 数据集上取得了令人瞩目的基础性成果，为未来的研究提供了基线。

Apr, 2020

LLMs 是优秀的手语翻译器

使用大型语言模型训练手语翻译任务，提出了 SignLLM 框架，将手语视频转换为类似语言的表示，通过两个关键模块进行转换，同时采用标记对齐损失来增强语义兼容性，在两个广泛使用的手语翻译基准测试中取得了最先进的无注释结果。

Apr, 2024

基于关键点的手语翻译技术（无须手语词汇）

该研究提出了一种新的关键点规范化方法和随机帧选择方法，用于改进手语翻译性能，并使用基于注意力机制的翻译模型将手语视频直接翻译成口语。

Apr, 2022

使用隐藏动态变换器进行手语产生

经过改进，我们开发了一种新方法来制作高质量的手语视频，不需要使用人类姿势作为中间步骤。与之前的方法相比，我们的模型在两个手语数据集上表现更好。

Dec, 2023

指令视频中的手语翻译

该研究使用 Transformer 和 I3D 视频特征对 How2Sign 数据集进行训练，并以降低的 BLEU 作为参考指标，获得了 8.03 的 BLEU 得分，提供了第一个开源实现，推进了自动手语翻译技术的发展。

Apr, 2023

基于分层时空图神经网络的手语翻译

该论文提出了一种新颖的用于手语翻译的深度学习体系结构，称为分层时空图神经网络，在高层和细节层次上建模手语，并使用图卷积和图自我注意机制来描述局部和全局信息特性，并在基准数据集上进行了实验验证。

Nov, 2021