指令视频中的手语翻译
本研究提出了 STMC-Transformer 翻译系统,相对当前最先进技术,在 PHOENIX-Weather 2014T 数据集的亮度 - 文本翻译和视频 - 文本翻译方面提高了 5 和 7 BLEU。在 ASLG-PC12 数据集上,也有超过 16 BLEU 的提高。同时,我们证明了当前方法中的问题,即依赖于 gloss 监督会导致 SLT 表现不佳,并揭示了 gloss 是手语的低效表示方法,因此建议未来的 SLT 研究采用端到端的训练方法或使用不同的手语注释方式。
Apr, 2020
手语转文字是一项关键技术,可以消除听障者之间的交流障碍。我们在最近发表的研究上进行复制并进行改进,通过使用 BLEU 和 rBLEU 度量来评估模型的翻译质量。在我们的消融研究中,我们发现模型的性能受到优化器、激活函数和标签平滑的显著影响。进一步的研究旨在改进视觉特征捕捉、增强解码器的利用以及整合预训练解码器以获得更好的翻译结果。我们的源代码可供查看以便复制我们的结果并鼓励未来研究。
Feb, 2024
通过两阶段的框架提出了 SSVP-SLT,该框架应对了缺乏对齐字幕的手语数据的问题,并解决了基于大规模网络抓取的数据集存在的隐私风险,通过自监督视频预训练和面部模糊化来提高 SLT 性能和保护隐私。
Feb, 2024
从人类翻译的角度出发,我们提出了一种基于多模态变压器架构的上下文感知翻译方法,通过利用上下文信息和自信预测来消除较弱的视觉线索,在最终的变压器解码器中组合来自视频、识别出的手语词汇和前面手语序列的上下文信息,显著提高了本文提出方法在较大规模数据集和公开数据集上的机器翻译性能,近乎翻倍地提高了基线方法的 BLEU-4 分数。
Aug, 2023
提出一种转录目标单语言数据为其伪吉祥语的简单高效的规则转换方法,从而增强 SLT 翻译的自动化,实验结果表明,该方法能够显着提高 SLT 的性能,尤其是在 PHEONIX-WEATHER 2014T 和 ASLG-PC12 等两个 SLT 基准数据集上实现了最新成果。
Apr, 2023
本研究提出了一种任务感知的指令网络,即 TIN-SLT,用于手语翻译,通过引入指令模块和基于学习的特征融合策略到 Transformer 网络中,从而充分利用预训练模型的语言能力来进一步提高翻译性能。另外,通过探索手语词汇和目标口语的表示空间,我们提出了一种多级数据增强方案来调整训练集的数据分布。我们在两个具有挑战性的基准数据集 PHOENIX-2014-T 和 ASLG-PC12 上进行了大量实验,其中我们的方法在 BLEU-4 方面的表现比以前的最佳解决方案提高了 1.65 和 1.42。
Apr, 2022
自动手语翻译是一个具有巨大社会影响的研究领域,通过端到端手语翻译可以促进听力有困难的人与听力正常的人之间的交流,从而提高他们的社交生活和参与社会生活的机会。针对现有资源有限的问题,研究者构建了一个新的希腊手语视频翻译数据集,包含 29653 个视频翻译对,基于希腊小学的官方课程,该数据集覆盖了广泛的主题,并使用该数据集训练了最新的基于 Transformer 的方法,结果表明该数据集在提供可用性和实际价值方面具有潜力推动 SLT 研究。
Oct, 2023
利用大规模预训练视觉和语言模型通过轻量级适配器实现无语言标注的手语翻译的新型框架 Sign2GPT,在两个公共基准手语翻译数据集上评估并取得明显优于现有技术的无语言标注翻译性能提升。
May, 2024
本文介绍微软对 WMT 2022 年第一次手语翻译共享任务的提交结果,展示了一种基于动作识别的全身信息提取、标准 Transformer 网络应用、目标文本数据清理的手语翻译系统,该系统在测试集和开发集上的 BLEU 得分是参与者中最好的,并在人类评估中获得第一名,同时在开发集上应用唇读模型提取的特征进一步提高了 BLEU 得分。
Oct, 2022
使用大型语言模型训练手语翻译任务,提出了 SignLLM 框架,将手语视频转换为类似语言的表示,通过两个关键模块进行转换,同时采用标记对齐损失来增强语义兼容性,在两个广泛使用的手语翻译基准测试中取得了最先进的无注释结果。
Apr, 2024