AAAIApr, 2022
使用多头视听记忆来区分同音异义词进行唇读
Distinguishing Homophenes Using Multi-Head Visual-Audio Memory for Lip Reading
Minsu Kim, Jeong Hun Yeo, Yong Man Ro
TL;DR本文提出一种多头视听记忆模型 (MVM),用于减轻唇读中信息不足和同音异义现象的挑战。该模型由音频 - 视觉数据集训练得到,结合多头记忆键和值来保存可区分同音异义现象的音频和视觉特征,并且在考虑上下文语境的多时间级别下使用,有效提高了唇读的识别率和准确性。