VK-G2T:视觉和上下文知识增强的 Gloss2Text
我们的研究通过利用预训练的大型语言模型(LLMs)、数据增强和新的标签平滑损失函数,在中间注释的视频中,专注于 Gloss2Text 翻译阶段,并在 PHOENIX Weather 2014T 数据集上的广泛实验和消融研究中取得了显著的性能提升,为手语翻译领域的研究和发展提供了有效的方法和有前景的方向。
Jul, 2024
利用大规模预训练视觉和语言模型通过轻量级适配器实现无语言标注的手语翻译的新型框架 Sign2GPT,在两个公共基准手语翻译数据集上评估并取得明显优于现有技术的无语言标注翻译性能提升。
May, 2024
提出一种转录目标单语言数据为其伪吉祥语的简单高效的规则转换方法,从而增强 SLT 翻译的自动化,实验结果表明,该方法能够显着提高 SLT 的性能,尤其是在 PHEONIX-WEATHER 2014T 和 ASLG-PC12 等两个 SLT 基准数据集上实现了最新成果。
Apr, 2023
基于视觉 - 语言预训练的无手语互译(GFSLT-VLP)方法通过结合对比式语言 - 图像预训练(CLIP)和掩码自监督学习,构建了一个端到端的模型,实现了在 PHOENIX14T 数据集上的 BLEU-4 分数大幅提升(> +5),取得了与最先进的无手语互译方法相当的竞争性结果。
Jul, 2023
本文提出了 GASLT 模型,使用 gloss attention 帮助模型理解手语视频,以及从自然语言模型中传递句子相似性的知识来帮助模型理解手语视频,实验结果表明,我们的 GASLT 模型在多个大型手语数据集上明显优于现有方法。
Jul, 2023
利用多模态数据和语言模型的泛化能力,通过视觉 - 文本对比学习,提出了一种多模态连续手语识别框架 SignVTCL,它整合了视频、关键点和光流等多模态数据,训练了统一的视觉骨干并获得更强大的视觉表示,同时通过视觉 - 文本对齐方法在词汇和句级别确保视觉特征与手语之间的精确对应,实验结果表明,SignVTCL 在三个数据集上取得了领先于之前方法的最新成果。
Jan, 2024
本文介绍了 GloFE 框架,该框架解决了无手语注释的手语翻译问题,并通过利用手语和口语的共同语义以及密码比对,在包括 OpenASL 和 How2Sign 在内的大型数据集上获得了最新的结果。
May, 2023
本文提出了一种 Prompt-based domain text generation (PGEN) 方法来克服标记稀缺性问题,该方法使用预训练语言模型(即 GPT-2)生成类似于原始领域口语的文本,通过该方法生成的口语文本用于 BT 技术,实现了手语标记翻译方面的显着性能提升,并且 PGEN 生成的口语文本规模越大,BT 技术的效果越好。
Oct, 2022
本篇研究实现了一个从文字到手语的系统,并提出了三个不同的组件来实现文字到手语的转换,包括一个词形还原器、一个基于规则的单词重排和删除组件以及一个神经机器翻译系统。将手语姿势从视频中提取出来,用于三种不同的手语语言中的词汇表进行手语姿势转换。最后,将运行文字到手语系统,并将生成的手势姿势组合起来生成一句话。
May, 2023