光泽无关手语翻译的注视注意力
本文介绍了 GloFE 框架,该框架解决了无手语注释的手语翻译问题,并通过利用手语和口语的共同语义以及密码比对,在包括 OpenASL 和 How2Sign 在内的大型数据集上获得了最新的结果。
May, 2023
基于视觉 - 语言预训练的无手语互译(GFSLT-VLP)方法通过结合对比式语言 - 图像预训练(CLIP)和掩码自监督学习,构建了一个端到端的模型,实现了在 PHOENIX14T 数据集上的 BLEU-4 分数大幅提升(> +5),取得了与最先进的无手语互译方法相当的竞争性结果。
Jul, 2023
在这篇论文中,我们发现表示密度问题是妨碍无法使用例句注释式手语翻译系统性能的瓶颈,并引入了一种名为 SignCL 的简单但有效的对比学习策略来解决这个问题,通过自我监督的方式改善了无法使用例句注释式方法中特征表示的可区分性。实验证明,SignCL 显著减少了表示密度,并在各种翻译框架上提高了性能,在 CSL-Daily 数据集上,SignCL 使得手语变形器和 GFSLT-VLP 的 BLEU 得分分别提高了 39%和 46%,而模型参数没有增加。与基于大规模预训练视觉和语言模型的最先进方法 Sign2GPT 相比,SignCL 只使用了其参数的 35%并获得了更好的性能。
May, 2024
提出一种转录目标单语言数据为其伪吉祥语的简单高效的规则转换方法,从而增强 SLT 翻译的自动化,实验结果表明,该方法能够显着提高 SLT 的性能,尤其是在 PHEONIX-WEATHER 2014T 和 ASLG-PC12 等两个 SLT 基准数据集上实现了最新成果。
Apr, 2023
通过引入已训练好的大型语言模型,并结合因式化学习的策略,我们提出了一种无需标注词汇的手语翻译方法,证明其在三个手语翻译数据集上都取得了显著的改进。
Mar, 2024
通过引入 Universal Gloss-level Representation (UniGloR),我们提出了一个统一的自监督解决方案,用于手语翻译和手语生成任务,并在各项任务中展示了 UniGloR 的有效性。我们的研究表明,自监督学习可以以统一的方式进行,为未来的创新与实际应用铺平了道路。
Jul, 2024
我们的研究通过利用预训练的大型语言模型(LLMs)、数据增强和新的标签平滑损失函数,在中间注释的视频中,专注于 Gloss2Text 翻译阶段,并在 PHOENIX Weather 2014T 数据集上的广泛实验和消融研究中取得了显著的性能提升,为手语翻译领域的研究和发展提供了有效的方法和有前景的方向。
Jul, 2024
本研究介绍了在连续手语识别研究中引入的一种新模块,称为 “内 - 间词汇关注模块”,以利用手语视频中词汇内部帧之间的关系,以及词汇之间的语义和语法依赖关系。在实验中,使用 PHOENIX-2014 基准数据集对所提出的模型进行评估,结果表明该方法可以在无先验知识的情况下有效地提取手语特征,改善连续手语识别的准确性,并在测试集上取得 20.4 的字词错误率(WER),这是与使用额外监督的先进技术相比具有竞争力的结果。
Jun, 2024