基于计算机视觉的中国手语双向翻译系统

Jun, 2023

基于计算机视觉的中国手语双向翻译系统

A two-way translation system of Chinese sign language based on computer vision

Shengzhuo Wei, Yan Lan

TL;DR该研究使用轻量级神经网络模型和 Bert-Base-Chinese 模型开发了一种适用于中文手语的实时翻译系统，经过性能测试表明其识别准确率达到了 99.3％，翻译生成的时间大约为 1.3 秒。

Abstract

As the main means of communication for deaf people, sign language has a special grammatical order, so it is meaningful and valuable to develop a real-time translation system for →

sign language real-time translation neural network bert-base-chinese model performance tests

发现论文，激发创造

手语识别技术和算法的比较分析

该研究比较了各种深度学习技术对手语的识别，旨在提供这一领域中最新方法和挑战的综合概述。

May, 2023

面向在线手语识别和翻译

填补聋人与听人之间沟通鸿沟的目标是手语识别。以往的研究使用了已经成熟的 CTC 模型进行训练，而本文则是首次尝试使用滑动窗口方法实现手语的在线识别。

Jan, 2024

Sign2GPT：利用大型语言模型进行无术语手语翻译

利用大规模预训练视觉和语言模型通过轻量级适配器实现无语言标注的手语翻译的新型框架 Sign2GPT，在两个公共基准手语翻译数据集上评估并取得明显优于现有技术的无语言标注翻译性能提升。

May, 2024

一个实时的人工智能学习手语的系统

开发一种基于人工智能的成本效益高、资源高效和开放的技术，旨在帮助人们学习和使用手语进行交流，以促进社会的包容性。该研究分析了基于人工智能的手语解决方案，特别聚焦美国手语，取得了令人满意的初步结果，并为进一步发展奠定了基础。

Feb, 2024

美国手语视频文本翻译

手语转文字是一项关键技术，可以消除听障者之间的交流障碍。我们在最近发表的研究上进行复制并进行改进，通过使用 BLEU 和 rBLEU 度量来评估模型的翻译质量。在我们的消融研究中，我们发现模型的性能受到优化器、激活函数和标签平滑的显著影响。进一步的研究旨在改进视觉特征捕捉、增强解码器的利用以及整合预训练解码器以获得更好的翻译结果。我们的源代码可供查看以便复制我们的结果并鼓励未来研究。

Feb, 2024

手语 Transformer: 端到端手语识别和翻译

本研究引入了一种新型的基于 Transformer 的架构，通过使用 CTC loss 将连续手语识别和翻译结合在一起，从而实现了端到端的训练。我们的手语翻译器在标准评估数据集 PHOENIX14T 上实现了最先进的手语翻译效果，超越了传统的手语视频到口语 / 手语关键词到口语机器翻译模型。

Mar, 2020

重新考虑句子级手语翻译

历史上，手语机器翻译一直被认为是一个基于句子级任务的：数据集由连续的叙述切割并作为孤立的片段呈现给模型。在这项工作中，我们探索了这一任务框架的局限性。首先，我们调查了一些手语中依赖于话语级上下文的语言现象。然后，作为一个研究案例，我们进行了手语翻译的第一个人类基准，实际上是将人类置于机器学习任务框架中，而不是将整个文档作为上下文提供给人类。这个人类基准 —— 针对 How2Sign 数据集的 ASL 到英语翻译 —— 显示，在我们的样本中，对于 33% 的句子，我们流利的聋人手语翻译员只能在附加的话语级上下文中理解片段的关键部分。这些结果强调了在将机器学习应用于新领域时理解和检查示例的重要性。

Jun, 2024

探索更多指导：一种基于任务感知的指令网络，利用数据增强提高手语翻译

本研究提出了一种任务感知的指令网络，即 TIN-SLT，用于手语翻译，通过引入指令模块和基于学习的特征融合策略到 Transformer 网络中，从而充分利用预训练模型的语言能力来进一步提高翻译性能。另外，通过探索手语词汇和目标口语的表示空间，我们提出了一种多级数据增强方案来调整训练集的数据分布。我们在两个具有挑战性的基准数据集 PHOENIX-2014-T 和 ASLG-PC12 上进行了大量实验，其中我们的方法在 BLEU-4 方面的表现比以前的最佳解决方案提高了 1.65 和 1.42。

Apr, 2022

基于图像的印度手语识别：使用深度神经网络的实用综述

该研究旨在利用计算机视觉技术和卷积神经网络，开发一种实时、基于印度手语的手语识别系统，以帮助印度的聋人和听力有障碍的人群。经过多次处理和训练，该模型的准确率达到了 99%。

Apr, 2023

两种语言的寓言：从口语监督中进行大词汇连续手语识别

我们引入了一种多任务 Transformer 模型 CSLR2，可以在手语序列和口语文本之间输出联合嵌入空间，以实现大词汇连续手语识别（CSLR）和手语检索。通过构建新的数据集注释，我们在大词汇环境中对 CSLR 进行了评估，并证明了通过精心选择损失函数，同时训练模型进行 CSLR 和检索任务在性能上是互相有益的。利用 BOBSL 和英文字幕等大词汇数据集中的弱监督和嘈杂监督，我们的模型在两个任务上明显优于以往的最先进技术。

May, 2024