Feb, 2024

基于视觉和几何特征的大词汇量阿拉伯口语识别的交叉注意力融合

TL;DR利用视觉数据识别口型以识别口述单词的技术(lipreading)是研究的热门话题之一,本研究提出了一种基于交叉注意力融合的方法,通过整合嘴部区域的视觉和几何特征来预测阿拉伯语单词的出现,实验证明了该方法在识别阿拉伯语单词方面的有效性和鲁棒性,为将 lipreading 技术应用于阿拉伯语打开了新的研究机会。