AAAIApr, 2022

使用多头视听记忆来区分同音异义词进行唇读

TL;DR本文提出一种多头视听记忆模型 (MVM),用于减轻唇读中信息不足和同音异义现象的挑战。该模型由音频 - 视觉数据集训练得到,结合多头记忆键和值来保存可区分同音异义现象的音频和视觉特征,并且在考虑上下文语境的多时间级别下使用,有效提高了唇读的识别率和准确性。