AAAIDec, 2023

基于条件变分自动编码器的手语翻译与跨模态对齐

TL;DR为了解决手语翻译中视觉和文本之间的跨模态对齐问题,本研究提出了一种基于条件变分自编码器的新型框架(CV-SLT),通过引入两个 KL 散度来促进手语视频和口语文本之间的直接且充分的跨模态对齐。实验证明,该框架在公共数据集上取得了新的最先进结果,并显著减轻了跨模态表示差异。