Apr, 2024

MTGA: 多视角时间粒度对齐聚合在基于事件的唇读中的应用

TL;DR利用说话人的嘴唇运动的视觉信息来识别单词和句子的口型识别技术,通过多视角时间粒度对齐聚合(MTGA)框架,结合时间分段的体素图列表、时空融合模块、和位置编码的时间聚合模块,本文提出的方法优于基于事件和基于视频的口型识别方法。