基于复杂环境的中文连续手语数据集
本文提出了Structured Feature Network(SF-Net)来解决连续手语识别中词汇量丰富、对齐困难等挑战,该模型将信息逐步编码到帧、词和句三个层次的特征表示中,并且可以在无需其他模型或预训练的情况下进行端到端训练。实验结果表明,该模型在两个大规模的手语识别数据集上的表现明显优于先前的基于序列级监督的方法。
Aug, 2019
提出了一种新的自适应模型(AdaBrowse),通过将连续手语识别(CSLR)问题建模成顺序决策任务,动态选择输入视频序列中最具信息量的子序列,并利用时空冗余实现高效计算,对四个大规模CSLR数据集进行了广泛的实验,证明了AdaBrowse的有效性。
Aug, 2023
该研究旨在通过利用多语种手语语料库来促进单一语种的连续手语识别,通过识别跨语种手语并将其作为辅助训练数据,从而提高其识别能力。实验结果表明,该方法在两个广泛使用的连续手语识别数据集上取得了最先进的性能。
Aug, 2023
本研究旨在通过双通道SlowFast网络以及特殊的特征融合方法,有效提取连续手语识别中的时空特征,并在多个数据集上展示了该模型在空间和动态表示方面的优势。
Sep, 2023
提出了TCNet,一种混合网络模型,有效地从视频中模拟Trajectories和Correlated regions的时空信息,实现了连续手语识别中长距离的空间交互作用,并在四个大规模数据集上表现出了最先进的性能。
Mar, 2024
本研究介绍了TVB-HKSL-News,这是一个通过7个月的时间从电视新闻节目中收集的香港手语(HKSL)数据集。该数据集旨在为HKSL提供丰富资源,支持大词汇连续手语识别(SLR)和翻译(SLT)的研究。通过自动化收集数据的方法,我们相信该收集方法可以轻松扩展到为未来的SLT收集更多手语数据,适用于任何手语,如果有这样的手语口译视频。我们还在数据集上运行了一个最先进的SLR / SLT模型,得到了34.08%的基准SLR词错误率和23.58的基准SLT BLEU-4分数,以便为该数据集未来的研究提供基准。
May, 2024
我们引入了一种多任务Transformer模型CSLR2,可以在手语序列和口语文本之间输出联合嵌入空间,以实现大词汇连续手语识别(CSLR)和手语检索。通过构建新的数据集注释,我们在大词汇环境中对CSLR进行了评估,并证明了通过精心选择损失函数,同时训练模型进行CSLR和检索任务在性能上是互相有益的。利用BOBSL和英文字幕等大词汇数据集中的弱监督和嘈杂监督,我们的模型在两个任务上明显优于以往的最先进技术。
May, 2024
连续手语识别 (CSLR) 着重于对连续进行而没有停顿的手语姿势序列的解释。本研究对最新的深度学习 CSLR 技术进行了实证评估,并评估其在各种数据集和手语中的表现。所选择的模型实施了一系列用于提取有意义特征的方法,并采用不同的训练策略。通过在多个数据集上评估这些模型,特别是 RWTH-PHOENIX-Weather-2014、ArabSign 和 GrSL,分别代表着不同的手语,来确定它们对建模不同手语的功效。所进行的实验在所选择的数据集上建立了新的基准,并为在具有挑战性场景下评估的技术的稳健性和泛化性提供了有价值的见解。
Jun, 2024
本研究介绍了在连续手语识别研究中引入的一种新模块,称为“内-间词汇关注模块”,以利用手语视频中词汇内部帧之间的关系,以及词汇之间的语义和语法依赖关系。在实验中,使用PHOENIX-2014基准数据集对所提出的模型进行评估,结果表明该方法可以在无先验知识的情况下有效地提取手语特征,改善连续手语识别的准确性,并在测试集上取得20.4的字词错误率(WER),这是与使用额外监督的先进技术相比具有竞争力的结果。
Jun, 2024