Jul, 2023

Kefa:基于知识增强和细粒度对齐技术的导航指令生成说话人

TL;DR我们引入了一种新颖的导航指令生成的说话者模型 Kefa。我们的模型通过知识细化模块来增强特征表示,并通过自适应时间对齐方法来确保生成的指令与观测序列的细粒度对齐。此外,我们提出了一种新的导航指令评估度量 SPICE-D,该度量关注方向短语的正确性。在 R2R 和 UrbanWalk 数据集上的实验证明了我们提出的 KEFA 说话者模型在室内外场景的指令生成性能上达到了最先进水平。