DiffSLVA：利用扩散模型实现手语视频匿名化

Nov, 2023

DiffSLVA：利用扩散模型实现手语视频匿名化

DiffSLVA: Harnessing Diffusion Models for Sign Language Video Anonymization

Zhaoyang Xia, Carol Neidle, Dimitris N. Metaxas

TL;DR通过 DiffSLVA 方法，利用预训练的大规模扩散模型和低级图像特征来进行零样本文本引导的手语视频匿名化，解决了手势识别的复杂性和对数据集的依赖性的问题，实现了更好地保护原始签名者的重要语言内容。

Abstract

Since american sign language (ASL) has no standard written form, Deaf signers frequently share videos in order to communicate in their native language. However, since both hands and face convey critical linguistic information in signed languages, →

american sign language sign language videos anonymization diffslva linguistic content

发现论文，激发创造

朝着规模化的注重隐私的手语翻译

通过两阶段的框架提出了 SSVP-SLT，该框架应对了缺乏对齐字幕的手语数据的问题，并解决了基于大规模网络抓取的数据集存在的隐私风险，通过自监督视频预训练和面部模糊化来提高 SLT 性能和保护隐私。

Feb, 2024

SignDiff: 学习美国手语表达的扩散模型

该研究论文介绍了一个基于深度学习的大规模美国手语（ASL）生成预训练模型，以解决对 ASL 依赖的残障人士之间的沟通障碍，并提出了用于 ASL 生成的基于条件扩散的预训练模型，同时改进了模型的准确性和质量，以及图像指标的优化。

Aug, 2023

神经信号演员：一种基于扩散模型的从文本到三维手语生成方法

提出了一种基于扩散的 SLP 模型，通过在 SMPL-X 身体骨架上定义的新颖解剖学感知图神经网络，从无约束的话语领域生成动态的 3D 动态符号化身序列，通过定量和定性实验证明本方法在 SLP 方面明显优于先前方法。

Dec, 2023

利用语言先验从视频中重建签名化身

通过引入具有普遍适用性的新颖语言学先验，SGNify 可以从现场 SL 视频中全自动捕获手势、面部表情和身体动作，从而在学习 SL 时取代视频字典的 3D avatar 可以提高对技术和在线媒体的获取能力和 AR/VR 应用，并在 SL 视频上优于现有 3D 身体姿势和形状估计方法。

Apr, 2023

手语深度伪造的生成与检测 —— 语言和视觉分析

利用深度伪造技术生成上半身的虚拟形象，配合手语并由专家审核，为聋哑人士群体带来积极应用的研究。通过构建可靠的深度伪造数据集，评估其技术和视觉可信度，并评估生成内容的可信度。该研究对健康和教育领域具有潜在益处，并可用于检测可能针对特定群体的伪造视频。

Apr, 2024

基于在线视频学习的开放领域手语翻译

本文介绍了 OpenASL 数据集，包含超过 200 名大规模美国手语（ASL）- 英语翻译中对手语搜索作为预训练工作的技术和融合口型和手势特征等技术，这些技术相比基线模型产生了一致的显著提高。

May, 2022

MS-ASL：用于理解美国手语的大规模数据集和基准

本文提出了一个包括 25,000 个有注释视频的美国手语数据集，通过 I3D 架构的应用，实现了对 1000 个手势的无限制语境下的识别。

Dec, 2018

自监督视频 Transformer 用于孤立手语识别

对孤立手语识别（ISLR）进行了自监督学习方法的深入分析，研究了四种最新的基于 Transformer 的方法和四种预训练数据方案在 WLASL2000 数据集上的组合，发现 MaskFeat 在基于手语的 WLASL2000 数据集上表现优越，准确率达到 79.02％。通过对多样的语音学特征进行线性探测，证明了这些模型产生 ASL 手势表示的能力，强调了架构和预训练任务选择在 ISLR 中的重要性。特别是在 WLASL2000 数据集上，掩码重构预训练的强大性能以及层次视觉 Transformer 在手语表示中的重要性得到了验证。

Sep, 2023

自然语言辅助手语识别

该论文提出了一种自然语言辅助手语识别 (NLA-SLR) 框架，利用手语词汇中的语义信息来降低手语识别中存在的视觉相似性 (VISigns) 问题。该论文设计了语言辅助标签平滑和交互式混合等技术来提高识别性能，并引入了视频关键点网络作为新型的骨干网络来获得更好的结果。实验结果表明，该方法在三个广泛采用的基准测试数据集上均达到了最先进的性能。

Mar, 2023

基于视频的手语识别，无需时间分割

该研究提出了一种用 Hierarchical Attention Network 和 Latent Space 实现连续手语识别的新型框架，该方法无需时间分割预处理、可以缩小语义差距，并在实验中得到了验证。

Jan, 2018