连续手语视频中的主题检测
利用 Transformer 模型,对连续的手语视频进行训练并输出 Written Tokens,从而实现手语序列中一大量手语的定位,生成大量手语词汇的注释,训练后实现 BSL-1K 标志语言识别基准测试中先前的最佳性能。
Mar, 2021
介绍了一个包含 80 多个小时的美国国家手语(ASL)视频及其对应的英文对话、音频和深度信息等多模态和多视角的连续手语数据集 How2Sign,并通过手语者的实验表明利用这个数据集合成的视频能够被理解,同时指出计算机视觉领域需要解决的挑战。
Aug, 2020
历史上,手语机器翻译一直被认为是一个基于句子级任务的:数据集由连续的叙述切割并作为孤立的片段呈现给模型。在这项工作中,我们探索了这一任务框架的局限性。首先,我们调查了一些手语中依赖于话语级上下文的语言现象。然后,作为一个研究案例,我们进行了手语翻译的第一个人类基准,实际上是将人类置于机器学习任务框架中,而不是将整个文档作为上下文提供给人类。这个人类基准 —— 针对 How2Sign 数据集的 ASL 到英语翻译 —— 显示,在我们的样本中,对于 33% 的句子,我们流利的聋人手语翻译员只能在附加的话语级上下文中理解片段的关键部分。这些结果强调了在将机器学习应用于新领域时理解和检查示例的重要性。
Jun, 2024
本研究的目的是为了解决计算手语研究中缺少大规模数据集的问题,并且分享了六个数据集和相关工具的收集过程以及用于推动未来研究的基准翻译结果。
May, 2021
该研究使用 Transformer 和 I3D 视频特征对 How2Sign 数据集进行训练,并以降低的 BLEU 作为参考指标,获得了 8.03 的 BLEU 得分,提供了第一个开源实现,推进了自动手语翻译技术的发展。
Apr, 2023
本文介绍了一种通过迭代学习的 SPOT-ALIGN 框架来改善印式手语检索与识别的效果,该框架利用大规模的美式手语数据集 How2Sign,使用交叉模态嵌入技术以及自由文本查询来挖掘手语视频集合并且解决标注数据不足的问题。
Jan, 2022
本文提出了一种基于同义词和字幕 - 手语对齐的简单可扩展框架,用于自动标注手语解释电视广播中的连续手语视频,并利用标注的手语识别模型进行了假标注,从而增加已知和未知类别的标注密度。该方法可将 BOBSL BSL 手语语料库的信心自动注释数量从 670K 提高到 5M,并提供这些注释以支持手语研究社区。
Aug, 2022
本文主要研究了如何识别手语视频中特定手语的位置,通过多种监督方法和学习框架,我们建立了一个机器学习模型并使用低样本数据验证了其有效性,并贡献了一个机器可读的英国手语字典数据集 BSLDict。
Oct, 2020