使用 LLM 将标志识别转换为口语句子
使用大型语言模型训练手语翻译任务,提出了 SignLLM 框架,将手语视频转换为类似语言的表示,通过两个关键模块进行转换,同时采用标记对齐损失来增强语义兼容性,在两个广泛使用的手语翻译基准测试中取得了最先进的无注释结果。
Apr, 2024
从人类翻译的角度出发,我们提出了一种基于多模态变压器架构的上下文感知翻译方法,通过利用上下文信息和自信预测来消除较弱的视觉线索,在最终的变压器解码器中组合来自视频、识别出的手语词汇和前面手语序列的上下文信息,显著提高了本文提出方法在较大规模数据集和公开数据集上的机器翻译性能,近乎翻倍地提高了基线方法的 BLEU-4 分数。
Aug, 2023
利用大规模预训练视觉和语言模型通过轻量级适配器实现无语言标注的手语翻译的新型框架 Sign2GPT,在两个公共基准手语翻译数据集上评估并取得明显优于现有技术的无语言标注翻译性能提升。
May, 2024
本研究提出了 STMC-Transformer 翻译系统,相对当前最先进技术,在 PHOENIX-Weather 2014T 数据集的亮度 - 文本翻译和视频 - 文本翻译方面提高了 5 和 7 BLEU。在 ASLG-PC12 数据集上,也有超过 16 BLEU 的提高。同时,我们证明了当前方法中的问题,即依赖于 gloss 监督会导致 SLT 表现不佳,并揭示了 gloss 是手语的低效表示方法,因此建议未来的 SLT 研究采用端到端的训练方法或使用不同的手语注释方式。
Apr, 2020
基于视觉 - 语言预训练的无手语互译(GFSLT-VLP)方法通过结合对比式语言 - 图像预训练(CLIP)和掩码自监督学习,构建了一个端到端的模型,实现了在 PHOENIX14T 数据集上的 BLEU-4 分数大幅提升(> +5),取得了与最先进的无手语互译方法相当的竞争性结果。
Jul, 2023
提出一种转录目标单语言数据为其伪吉祥语的简单高效的规则转换方法,从而增强 SLT 翻译的自动化,实验结果表明,该方法能够显着提高 SLT 的性能,尤其是在 PHEONIX-WEATHER 2014T 和 ASLG-PC12 等两个 SLT 基准数据集上实现了最新成果。
Apr, 2023
本文提出了一种使用大型口语语言模型将定位与相应字幕对齐的方法,通过使用单一模态,我们的方法计算成本低廉且可与现有的对齐技术相结合,我们在 mdgs 和 bobsl 数据集上定量证明了我们的方法的有效性,词对齐得分可达到 33.22 BLEU-1 得分。
Aug, 2023
该研究使用 Transformer 和 I3D 视频特征对 How2Sign 数据集进行训练,并以降低的 BLEU 作为参考指标,获得了 8.03 的 BLEU 得分,提供了第一个开源实现,推进了自动手语翻译技术的发展。
Apr, 2023