Oct, 2021

基于视觉注意力的子词级唇读技术

TL;DR该研究提出了一种关注视觉嘴唇读取的独特挑战,采用定制的基于注意力和亚词单元的方法,构建视觉嘴唇读取模型和视觉语音检测模型,并在公共数据集上实现了当今最优秀的结果,甚至超过工业声音数据集训练模型大约一个数量级的数据。