Feb, 2024

无监督手语翻译与生成

TL;DR通过无监督的神经机器翻译 (UNMT) 的成功,我们引入了一种无监督的手语翻译和生成网络 (USLNet),它能够从丰富的单模态(文本和视频)数据中学习,而不需要平行手语数据。USLNet 由两个主要组成部分组成:单模态重构模块(文本和视频),用于从相同模态的噪声版本重建输入;跨模态回译模块(文本 - 视频 - 文本和视频 - 文本 - 视频),其通过回译过程在不同模态下重建输入。与基于文本的 UNMT 中单模态回译过程不同,USLNet 面临着特征表示中的跨模态差异,其中文本和视频序列之间的长度和特征维度不匹配。我们提出了一种滑动窗口方法来解决文本与视频序列对齐的问题。据我们所知,USLNet 是首个能够以统一方式生成自然语言文本和手语视频的无监督手语翻译和生成模型。在 BBC-Oxford 手语数据集(BOBSL)和开放领域美国手语数据集 (OpenASL) 上的实验结果表明,USLNet 与有监督基线模型相比取得了竞争性的结果,表明其在手语翻译和生成方面的有效性。