BriefGPT.xyz
Ask
alpha
关键词
multi-scale video data
搜索结果 - 1
借助多尺度视频和多编码器增强唇读能力
提出了一种改善自动唇读技术的方法,通过多尺度视频数据和多编码器来提取不同尺度的唇部特征,并在 ICME 2024 ChatCLR 挑战中取得了第二名的成绩,与官方基准相比字符错误率减少了 21.52%。
PDF
3 months ago
Prev
Next