基于计算机视觉的中国手语双向翻译系统
利用大规模预训练视觉和语言模型通过轻量级适配器实现无语言标注的手语翻译的新型框架 Sign2GPT,在两个公共基准手语翻译数据集上评估并取得明显优于现有技术的无语言标注翻译性能提升。
May, 2024
开发一种基于人工智能的成本效益高、资源高效和开放的技术,旨在帮助人们学习和使用手语进行交流,以促进社会的包容性。该研究分析了基于人工智能的手语解决方案,特别聚焦美国手语,取得了令人满意的初步结果,并为进一步发展奠定了基础。
Feb, 2024
手语转文字是一项关键技术,可以消除听障者之间的交流障碍。我们在最近发表的研究上进行复制并进行改进,通过使用 BLEU 和 rBLEU 度量来评估模型的翻译质量。在我们的消融研究中,我们发现模型的性能受到优化器、激活函数和标签平滑的显著影响。进一步的研究旨在改进视觉特征捕捉、增强解码器的利用以及整合预训练解码器以获得更好的翻译结果。我们的源代码可供查看以便复制我们的结果并鼓励未来研究。
Feb, 2024
本研究引入了一种新型的基于 Transformer 的架构,通过使用 CTC loss 将连续手语识别和翻译结合在一起,从而实现了端到端的训练。我们的手语翻译器在标准评估数据集 PHOENIX14T 上实现了最先进的手语翻译效果,超越了传统的手语视频到口语 / 手语关键词到口语机器翻译模型。
Mar, 2020
历史上,手语机器翻译一直被认为是一个基于句子级任务的:数据集由连续的叙述切割并作为孤立的片段呈现给模型。在这项工作中,我们探索了这一任务框架的局限性。首先,我们调查了一些手语中依赖于话语级上下文的语言现象。然后,作为一个研究案例,我们进行了手语翻译的第一个人类基准,实际上是将人类置于机器学习任务框架中,而不是将整个文档作为上下文提供给人类。这个人类基准 —— 针对 How2Sign 数据集的 ASL 到英语翻译 —— 显示,在我们的样本中,对于 33% 的句子,我们流利的聋人手语翻译员只能在附加的话语级上下文中理解片段的关键部分。这些结果强调了在将机器学习应用于新领域时理解和检查示例的重要性。
Jun, 2024
本研究提出了一种任务感知的指令网络,即 TIN-SLT,用于手语翻译,通过引入指令模块和基于学习的特征融合策略到 Transformer 网络中,从而充分利用预训练模型的语言能力来进一步提高翻译性能。另外,通过探索手语词汇和目标口语的表示空间,我们提出了一种多级数据增强方案来调整训练集的数据分布。我们在两个具有挑战性的基准数据集 PHOENIX-2014-T 和 ASLG-PC12 上进行了大量实验,其中我们的方法在 BLEU-4 方面的表现比以前的最佳解决方案提高了 1.65 和 1.42。
Apr, 2022
该研究旨在利用计算机视觉技术和卷积神经网络,开发一种实时、基于印度手语的手语识别系统,以帮助印度的聋人和听力有障碍的人群。经过多次处理和训练,该模型的准确率达到了 99%。
Apr, 2023
我们引入了一种多任务 Transformer 模型 CSLR2,可以在手语序列和口语文本之间输出联合嵌入空间,以实现大词汇连续手语识别(CSLR)和手语检索。通过构建新的数据集注释,我们在大词汇环境中对 CSLR 进行了评估,并证明了通过精心选择损失函数,同时训练模型进行 CSLR 和检索任务在性能上是互相有益的。利用 BOBSL 和英文字幕等大词汇数据集中的弱监督和嘈杂监督,我们的模型在两个任务上明显优于以往的最先进技术。
May, 2024