Apr, 2024
借助多尺度视频和多编码器增强唇读能力
Enhancing Lip Reading with Multi-Scale Video and Multi-Encoder
He Wang, Pengcheng Guo, Xucheng Wan, Huan Zhou, Lei Xie
TL;DR提出了一种改善自动唇读技术的方法,通过多尺度视频数据和多编码器来提取不同尺度的唇部特征,并在 ICME 2024 ChatCLR 挑战中取得了第二名的成绩,与官方基准相比字符错误率减少了 21.52%。