朝着规模化的注重隐私的手语翻译

Feb, 2024

朝着规模化的注重隐私的手语翻译

Towards Privacy-Aware Sign Language Translation at Scale

Phillip Rust, Bowen Shi, Skyler Wang, Necati Cihan Camgöz, Jean Maillard

TL;DR通过两阶段的框架提出了 SSVP-SLT，该框架应对了缺乏对齐字幕的手语数据的问题，并解决了基于大规模网络抓取的数据集存在的隐私风险，通过自监督视频预训练和面部模糊化来提高 SLT 性能和保护隐私。

Abstract

A major impediment to the advancement of sign language translation (SLT) is data scarcity. Much of the sign language data currently available on the web cannot be used for training supervised models due to the la

sign language translation data scarcity privacy-aware slt self-supervised video pretraining anonymization

发现论文，激发创造

无术语手语翻译：基于视觉 - 语言预训练的改进

基于视觉 - 语言预训练的无手语互译（GFSLT-VLP）方法通过结合对比式语言 - 图像预训练（CLIP）和掩码自监督学习，构建了一个端到端的模型，实现了在 PHOENIX14T 数据集上的 BLEU-4 分数大幅提升（> +5），取得了与最先进的无手语互译方法相当的竞争性结果。

Jul, 2023

使用单语数据改进手语翻译

提出一种转录目标单语言数据为其伪吉祥语的简单高效的规则转换方法，从而增强 SLT 翻译的自动化，实验结果表明，该方法能够显着提高 SLT 的性能，尤其是在 PHEONIX-WEATHER 2014T 和 ASLG-PC12 等两个 SLT 基准数据集上实现了最新成果。

Apr, 2023

指令视频中的手语翻译

该研究使用 Transformer 和 I3D 视频特征对 How2Sign 数据集进行训练，并以降低的 BLEU 作为参考指标，获得了 8.03 的 BLEU 得分，提供了第一个开源实现，推进了自动手语翻译技术的发展。

Apr, 2023

Sign2GPT：利用大型语言模型进行无术语手语翻译

利用大规模预训练视觉和语言模型通过轻量级适配器实现无语言标注的手语翻译的新型框架 Sign2GPT，在两个公共基准手语翻译数据集上评估并取得明显优于现有技术的无语言标注翻译性能提升。

May, 2024

使用手语回译的单语数据提高手语翻译

本研究提出了一种标志性的回译（SignBT）方法，利用大规模口语文本来协助手语翻译（SLT）的训练。此外，我们还发布了一个大规模的连续 SLT 数据集 CSL-Daily，提供口语翻译和注释。通过提出的回译方法，我们实现了对先前 SLT 方法的显着改善。

May, 2021

上下文是否足够？将神经手语翻译推广至广泛话题领域

从人类翻译的角度出发，我们提出了一种基于多模态变压器架构的上下文感知翻译方法，通过利用上下文信息和自信预测来消除较弱的视觉线索，在最终的变压器解码器中组合来自视频、识别出的手语词汇和前面手语序列的上下文信息，显著提高了本文提出方法在较大规模数据集和公开数据集上的机器翻译性能，近乎翻倍地提高了基线方法的 BLEU-4 分数。

Aug, 2023

使用自监督预训练和数据增强增强的直接语音翻译

本文讨论了直接语音到语音翻译模型面临的数据稀缺性问题，探索了自监督预训练和数据增强技术来解决此问题，实验表明自监督预训练可以提高模型性能，结合数据增强技术可以进一步提高模型性能。

Apr, 2022

手语术语翻译的数据增强

该研究提出了两个基于规则的启发式方法，从而提高了手语到文本翻译的机器翻译准确性，并成功地将美国手语（ASL）翻译成英语和德国手语（DGS）翻译成德语。

May, 2021

DiffSLVA：利用扩散模型实现手语视频匿名化

通过 DiffSLVA 方法，利用预训练的大规模扩散模型和低级图像特征来进行零样本文本引导的手语视频匿名化，解决了手势识别的复杂性和对数据集的依赖性的问题，实现了更好地保护原始签名者的重要语言内容。

Nov, 2023

语音翻译的大规模自监督和半监督学习

通过利用大量未标记的语音和文本数据（包括 Libri-Light 语音音频语料库和 CommonCrawl 语言建模）的预训练和自我训练，我们的实验结果表明，在不利用监督学习数据的前提下，通过 wav2vec 2.0 预训练、自我训练和配合语言模型的方法，能够使所有四个 CoVoST 2 语言对的 BLEU 平均值提高 2.6。代码和模型将公开发布。

Apr, 2021