使用 LLM 将标志识别转换为口语句子

Mar, 2024

使用 LLM 将标志识别转换为口语句子

Using an LLM to Turn Sign Spottings into Spoken Language Sentences

Ozge Mercanoglu Sincan, Necati Cihan Camgoz, Richard Bowden

TL;DR引入一种混合式 SLT 方法 Spotter+GPT，旨在从手语视频中生成口语句子，通过训练在语言手语数据集上的手语识别器和预训练的大型语言模型来提高 SLT 性能。

Abstract

sign language translation (slt) is a challenging task that aims to generate spoken language sentences from sign language videos. In this paper, we introduce a hybrid →

sign language translation slt spotter+gpt sign spotter pretrained large language model

发现论文，激发创造

LLMs 是优秀的手语翻译器

使用大型语言模型训练手语翻译任务，提出了 SignLLM 框架，将手语视频转换为类似语言的表示，通过两个关键模块进行转换，同时采用标记对齐损失来增强语义兼容性，在两个广泛使用的手语翻译基准测试中取得了最先进的无注释结果。

Apr, 2024

上下文是否足够？将神经手语翻译推广至广泛话题领域

从人类翻译的角度出发，我们提出了一种基于多模态变压器架构的上下文感知翻译方法，通过利用上下文信息和自信预测来消除较弱的视觉线索，在最终的变压器解码器中组合来自视频、识别出的手语词汇和前面手语序列的上下文信息，显著提高了本文提出方法在较大规模数据集和公开数据集上的机器翻译性能，近乎翻倍地提高了基线方法的 BLEU-4 分数。

Aug, 2023

Sign2GPT：利用大型语言模型进行无术语手语翻译

利用大规模预训练视觉和语言模型通过轻量级适配器实现无语言标注的手语翻译的新型框架 Sign2GPT，在两个公共基准手语翻译数据集上评估并取得明显优于现有技术的无语言标注翻译性能提升。

May, 2024

基于 STMC-Transformer 的更好手语翻译

本研究提出了 STMC-Transformer 翻译系统，相对当前最先进技术，在 PHOENIX-Weather 2014T 数据集的亮度 - 文本翻译和视频 - 文本翻译方面提高了 5 和 7 BLEU。在 ASLG-PC12 数据集上，也有超过 16 BLEU 的提高。同时，我们证明了当前方法中的问题，即依赖于 gloss 监督会导致 SLT 表现不佳，并揭示了 gloss 是手语的低效表示方法，因此建议未来的 SLT 研究采用端到端的训练方法或使用不同的手语注释方式。

Apr, 2020

基于关键点的手语翻译技术（无须手语词汇）

该研究提出了一种新的关键点规范化方法和随机帧选择方法，用于改进手语翻译性能，并使用基于注意力机制的翻译模型将手语视频直接翻译成口语。

Apr, 2022

无术语手语翻译：基于视觉 - 语言预训练的改进

基于视觉 - 语言预训练的无手语互译（GFSLT-VLP）方法通过结合对比式语言 - 图像预训练（CLIP）和掩码自监督学习，构建了一个端到端的模型，实现了在 PHOENIX14T 数据集上的 BLEU-4 分数大幅提升（> +5），取得了与最先进的无手语互译方法相当的竞争性结果。

Jul, 2023

使用单语数据改进手语翻译

提出一种转录目标单语言数据为其伪吉祥语的简单高效的规则转换方法，从而增强 SLT 翻译的自动化，实验结果表明，该方法能够显着提高 SLT 的性能，尤其是在 PHEONIX-WEATHER 2014T 和 ASLG-PC12 等两个 SLT 基准数据集上实现了最新成果。

Apr, 2023

利用词嵌入进行术语对齐

本文提出了一种使用大型口语语言模型将定位与相应字幕对齐的方法，通过使用单一模态，我们的方法计算成本低廉且可与现有的对齐技术相结合，我们在 mdgs 和 bobsl 数据集上定量证明了我们的方法的有效性，词对齐得分可达到 33.22 BLEU-1 得分。

Aug, 2023

指令视频中的手语翻译

该研究使用 Transformer 和 I3D 视频特征对 How2Sign 数据集进行训练，并以降低的 BLEU 作为参考指标，获得了 8.03 的 BLEU 得分，提供了第一个开源实现，推进了自动手语翻译技术的发展。

Apr, 2023

手语术语翻译的数据增强

该研究提出了两个基于规则的启发式方法，从而提高了手语到文本翻译的机器翻译准确性，并成功地将美国手语（ASL）翻译成英语和德国手语（DGS）翻译成德语。

May, 2021