May, 2021

手语视频字幕对齐

TL;DR提出一种用于对手语视频中的异步字幕进行时间对齐的 Transformer 体系结构,使用 BERT 字幕嵌入和 CNN 视频表示来对两个信号进行编码,并通过一系列的注意层进行交互,输出逐帧预测,从而大幅改善了现有的对齐基线。