ACLJun, 2024

T2S-GPT:基于文本的自回归手语生成的动态向量量化

TL;DR本文提出了一种两阶段手语生成 (SLP) 方法,通过首先将手语序列编码为离散编码,然后基于学习到的码本从文本中自回归生成手语。为解决现有向量量化方法中固定长度编码忽视手语中信息密度不均匀的问题,我们提出了一种新颖的动态向量量化 (DVA-VAE) 模型,该模型可以根据手语中的信息密度动态调整编码长度以实现准确而紧凑的编码。随后,一种类似于 GPT 的模型通过学习从口语文本生成编码序列及其对应的持续时间。对 PHOENIX14T 数据集进行了大量实验证明了我们提出的方法的有效性。为了推动手语研究,我们提出了一个新的德语手语大规模数据集 PHOENIX-News,该数据集包含 486 小时的手语视频,音频及转录文本。对 PHOENIX-News 的实验分析表明,增加训练数据的规模可以进一步提高我们模型的性能。项目主页详见此链接。