COLINGMay, 2024

一份从手语翻译电视新闻中获得的香港手语语料库

TL;DR本研究介绍了 TVB-HKSL-News,这是一个通过 7 个月的时间从电视新闻节目中收集的香港手语(HKSL)数据集。该数据集旨在为 HKSL 提供丰富资源,支持大词汇连续手语识别(SLR)和翻译(SLT)的研究。通过自动化收集数据的方法,我们相信该收集方法可以轻松扩展到为未来的 SLT 收集更多手语数据,适用于任何手语,如果有这样的手语口译视频。我们还在数据集上运行了一个最先进的 SLR / SLT 模型,得到了 34.08%的基准 SLR 词错误率和 23.58 的基准 SLT BLEU-4 分数,以便为该数据集未来的研究提供基准。