使用两阶段方法学习打分手语
基于影像及语言学特性,本研究提出了一种有效且高效的学习手语表示的方法,专注于手势视频中的脸部、手部和身体姿态,并通过自监督学习的方式学习手语中复杂的手形和丰富的面部表情,实现对手语翻译的新突破。
Jun, 2024
该研究探讨了自动手语识别的问题,提出了一种基于概率模型的手语分类方法,通过对具有 64 个类别和 3200 个样本的阿根廷手语数据集进行测试,证实了可以实现不考虑顺序的识别,并取得了 97% 的准确率。
Oct, 2023
本文提出了一个包括 25,000 个有注释视频的美国手语数据集,通过 I3D 架构的应用,实现了对 1000 个手势的无限制语境下的识别。
Dec, 2018
通过 3D 卷积神经网络及得分融合方法,我们训练了针对主导手、双手、面部及上半身区域的不同模型,并比较它们的性能表现。实验结果表明,这种混合卷积模型的融合能够比使用完整上半身的基线提高高达 19% 的准确率,并提供有助于未来手语翻译的融合设置讨论。
Sep, 2020
连续手语识别 (CSLR) 着重于对连续进行而没有停顿的手语姿势序列的解释。本研究对最新的深度学习 CSLR 技术进行了实证评估,并评估其在各种数据集和手语中的表现。所选择的模型实施了一系列用于提取有意义特征的方法,并采用不同的训练策略。通过在多个数据集上评估这些模型,特别是 RWTH-PHOENIX-Weather-2014、ArabSign 和 GrSL,分别代表着不同的手语,来确定它们对建模不同手语的功效。所进行的实验在所选择的数据集上建立了新的基准,并为在具有挑战性场景下评估的技术的稳健性和泛化性提供了有价值的见解。
Jun, 2024
历史上,手语机器翻译一直被认为是一个基于句子级任务的:数据集由连续的叙述切割并作为孤立的片段呈现给模型。在这项工作中,我们探索了这一任务框架的局限性。首先,我们调查了一些手语中依赖于话语级上下文的语言现象。然后,作为一个研究案例,我们进行了手语翻译的第一个人类基准,实际上是将人类置于机器学习任务框架中,而不是将整个文档作为上下文提供给人类。这个人类基准 —— 针对 How2Sign 数据集的 ASL 到英语翻译 —— 显示,在我们的样本中,对于 33% 的句子,我们流利的聋人手语翻译员只能在附加的话语级上下文中理解片段的关键部分。这些结果强调了在将机器学习应用于新领域时理解和检查示例的重要性。
Jun, 2024