法国手语图形化表现及软件编辑
本文提出了一种基于 AZee 的文本到手语翻译的算法,利用特定领域的平行语料库来解决数据短缺的问题,通过检测源文本中存在的相似性,递归地利用匹配和对齐段的替换来建立一个句子的多个候选翻译,这有助于以一种生成的方式尽可能保留手语结构。最终的翻译以 AZee 表达式的形式呈现,旨在作为输入到 Avatar 合成系统中。我们提供了一个测试集来展示其表现,并观察到了一些局限性。这项工作最终开启了评估翻译和语言方面的可能性,例如准确性和语法流畅性。
May, 2022
该论文介绍了一种利用向量量化从手语姿势序列中得出离散表示的手语矢量量化网络的新方法,该方法支持高级解码方法,并整合了潜在级别的对齐以增强语言的一致性,并通过综合评估证明了该方法优于之前的手语生产方法的卓越性能,并突出了反向转译和 Fréchet 手势距离作为评估指标的可靠性
Sep, 2023
将连续动作生成问题转化为离散序列生成问题的创新解决方案,利用矢量量化方法以及转换器,将口语文本翻译为动作序列,并通过签名拼接方法有效地组合标记,实验证明该方法胜过以往方法,使 BLEU-1 回译得分提高了 72%。
Apr, 2024
通过引入具有普遍适用性的新颖语言学先验,SGNify 可以从现场 SL 视频中全自动捕获手势、面部表情和身体动作,从而在学习 SL 时取代视频字典的 3D avatar 可以提高对技术和在线媒体的获取能力和 AR/VR 应用,并在 SL 视频上优于现有 3D 身体姿势和形状估计方法。
Apr, 2023
该论文提出了一种自然语言辅助手语识别 (NLA-SLR) 框架,利用手语词汇中的语义信息来降低手语识别中存在的视觉相似性 (VISigns) 问题。该论文设计了语言辅助标签平滑和交互式混合等技术来提高识别性能,并引入了视频关键点网络作为新型的骨干网络来获得更好的结果。实验结果表明,该方法在三个广泛采用的基准测试数据集上均达到了最先进的性能。
Mar, 2023
引入了 SignGAN 来通过运用 Mixture Density Network (MDN) 的 transformer 架构,提出了一个新颖的基于关键点的损失函数,实现了从口语翻译成骨骼姿势,再生成连续的手势语视频。使用 8 个手语翻译者的数据集,证明了该方法在定性和定量上均优于基线方法。
Nov, 2020
通过 DiffSLVA 方法,利用预训练的大规模扩散模型和低级图像特征来进行零样本文本引导的手语视频匿名化,解决了手势识别的复杂性和对数据集的依赖性的问题,实现了更好地保护原始签名者的重要语言内容。
Nov, 2023
使用运动捕捉数据对奥地利手语(OGS)的动词和形容词产生的运动参数进行了定量表征,结果发现动词的种类(有终点和无终点)通过峰值速度和持续时间的差异来区分,而在形容词中的强调程度则通过持续时间的长短来表达。
May, 2024
本文提出了一种两阶段手语生成 (SLP) 方法,通过首先将手语序列编码为离散编码,然后基于学习到的码本从文本中自回归生成手语。为解决现有向量量化方法中固定长度编码忽视手语中信息密度不均匀的问题,我们提出了一种新颖的动态向量量化 (DVA-VAE) 模型,该模型可以根据手语中的信息密度动态调整编码长度以实现准确而紧凑的编码。随后,一种类似于 GPT 的模型通过学习从口语文本生成编码序列及其对应的持续时间。对 PHOENIX14T 数据集进行了大量实验证明了我们提出的方法的有效性。为了推动手语研究,我们提出了一个新的德语手语大规模数据集 PHOENIX-News,该数据集包含 486 小时的手语视频,音频及转录文本。对 PHOENIX-News 的实验分析表明,增加训练数据的规模可以进一步提高我们模型的性能。项目主页详见此链接。
Jun, 2024
基于视觉基础的言语知觉模型,使用多层循环高速公路网络对时间性建模,能够从输入信号中提取形式和基于含义的语言学知识,并分析了训练模型不同组件使用的表示方式。在表示层次结构的上升过程中,语义方面的编码越来越丰富,而语言输入中形式相关方面的编码在初始增加后呈现平稳或下降的趋势。
Feb, 2017