- Gloss2Text: 使用 LLMs 和语义感知标签平滑的手语标记翻译
我们的研究通过利用预训练的大型语言模型(LLMs)、数据增强和新的标签平滑损失函数,在中间注释的视频中,专注于 Gloss2Text 翻译阶段,并在 PHOENIX Weather 2014T 数据集上的广泛实验和消融研究中取得了显著的性能 - 重新考虑句子级手语翻译
历史上,手语机器翻译一直被认为是一个基于句子级任务的:数据集由连续的叙述切割并作为孤立的片段呈现给模型。在这项工作中,我们探索了这一任务框架的局限性。首先,我们调查了一些手语中依赖于话语级上下文的语言现象。然后,作为一个研究案例,我们进行了 - 通过减少表示密度来改善无光泽手语翻译
在这篇论文中,我们发现表示密度问题是妨碍无法使用例句注释式手语翻译系统性能的瓶颈,并引入了一种名为 SignCL 的简单但有效的对比学习策略来解决这个问题,通过自我监督的方式改善了无法使用例句注释式方法中特征表示的可区分性。实验证明,Sig - 多流关键点注意力网络用于手语识别和翻译
提出了一种多流关键点注意网络,用于描述由现有的关键点估计器生成的关键点序列,并通过额外的翻译网络将其扩展为一种手语翻译模型,实现了 Phoenix-2014T 手语翻译任务的最新技术水平。
- E-TSL:具备基线方法的连续性教育土耳其手语数据集
这项研究引入了连续的教育土耳其手语(E-TSL)数据集,收集自第 5、6 和 8 年级的在线土耳其语课程。该数据集包含 1,410 个视频,总计近 24 小时,包括来自 11 位手语演讲者的表演。我们开发了两种基准模型来解决这些挑战:姿势到 - CorrNet+: 空间 - 时间相关性的手语识别和翻译
本文介绍了一种称为 CorrNet + 的空间 - 时间相关网络,它明确识别多帧中的人体轨迹,为进行手语的深入理解提供全面的视角。作为一个统一模型,CorrNet + 在连续手语识别(CSLR)和手语翻译(SLT)两个广泛的手语理解任务中实 - CVPRLLMs 是优秀的手语翻译器
使用大型语言模型训练手语翻译任务,提出了 SignLLM 框架,将手语视频转换为类似语言的表示,通过两个关键模块进行转换,同时采用标记对齐损失来增强语义兼容性,在两个广泛使用的手语翻译基准测试中取得了最先进的无注释结果。
- COLING因子化学习辅助大型语言模型用于无术语手语翻译
通过引入已训练好的大型语言模型,并结合因式化学习的策略,我们提出了一种无需标注词汇的手语翻译方法,证明其在三个手语翻译数据集上都取得了显著的改进。
- 使用 LLM 将标志识别转换为口语句子
引入一种混合式 SLT 方法 Spotter+GPT,旨在从手语视频中生成口语句子,通过训练在语言手语数据集上的手语识别器和预训练的大型语言模型来提高 SLT 性能。
- 朝着规模化的注重隐私的手语翻译
通过两阶段的框架提出了 SSVP-SLT,该框架应对了缺乏对齐字幕的手语数据的问题,并解决了基于大规模网络抓取的数据集存在的隐私风险,通过自监督视频预训练和面部模糊化来提高 SLT 性能和保护隐私。
- ChatGPT,让我们聊手语:实验、架构要素、挑战和研究方向
通过回顾性分析 ChatGPT 的架构改进,本文探讨了 ChatGPT 在手语翻译方面的潜力,进一步发现 ChatGPT 可以准确地翻译英语到美式手语(ASL),澳大利亚手语(AUSLAN)和英国手语(BSL),以及阿拉伯手语(ArSL)到 - AAAI基于条件变分自动编码器的手语翻译与跨模态对齐
为了解决手语翻译中视觉和文本之间的跨模态对齐问题,本研究提出了一种基于条件变分自编码器的新型框架(CV-SLT),通过引入两个 KL 散度来促进手语视频和口语文本之间的直接且充分的跨模态对齐。实验证明,该框架在公共数据集上取得了新的最先进结 - VK-G2T:视觉和上下文知识增强的 Gloss2Text
通过视觉内容和上下文知识加强的 VK-G2T 模型,在中文基准测试中取得了优越的成果。
- EMNLPJWSign: 一个高度多语言的圣经翻译语料库,为手语处理提供更多样化
通过引入一个新的大型、高度多语言的手语翻译数据集 JWSign,我们在 2,530 个小时的圣经翻译中报告了神经机器翻译实验。除了双语基线系统外,我们还训练了多语言系统,其中包括考虑手语或口语语言类型学相关性的系统。实验证明,多语言系统优于 - 走向现实世界中的美国手语处理:数据、任务和方法
这篇论文研究了自然环境下手语的自动处理,包括手指拼写、手势识别和手语翻译,并提出了新的数据集、任务和方法。
- ICCV迭代原型的手语翻译
该论文介绍了 IP-SLT,这是一个简单而有效的手语翻译框架,通过迭代改善方式,增强了输入手语视频的语义表达(原型)。通过特征提取、原型初始化和迭代原型改进,IP-SLT 能够准确理解手语,并将其流畅和恰当地翻译成文本。
- 上下文是否足够?将神经手语翻译推广至广泛话题领域
从人类翻译的角度出发,我们提出了一种基于多模态变压器架构的上下文感知翻译方法,通过利用上下文信息和自信预测来消除较弱的视觉线索,在最终的变压器解码器中组合来自视频、识别出的手语词汇和前面手语序列的上下文信息,显著提高了本文提出方法在较大规模 - ICCV无术语手语翻译:基于视觉 - 语言预训练的改进
基于视觉 - 语言预训练的无手语互译(GFSLT-VLP)方法通过结合对比式语言 - 图像预训练(CLIP)和掩码自监督学习,构建了一个端到端的模型,实现了在 PHOENIX14T 数据集上的 BLEU-4 分数大幅提升(> +5),取得了 - 光泽无关手语翻译的注视注意力
本文提出了 GASLT 模型,使用 gloss attention 帮助模型理解手语视频,以及从自然语言模型中传递句子相似性的知识来帮助模型理解手语视频,实验结果表明,我们的 GASLT 模型在多个大型手语数据集上明显优于现有方法。
- ACL非干涉式端到端手语翻译
本文介绍了 GloFE 框架,该框架解决了无手语注释的手语翻译问题,并通过利用手语和口语的共同语义以及密码比对,在包括 OpenASL 和 How2Sign 在内的大型数据集上获得了最新的结果。