Apr, 2024

借助多尺度视频和多编码器增强唇读能力

TL;DR提出了一种改善自动唇读技术的方法,通过多尺度视频数据和多编码器来提取不同尺度的唇部特征,并在 ICME 2024 ChatCLR 挑战中取得了第二名的成绩,与官方基准相比字符错误率减少了 21.52%。