Sep, 2023

基于多模态融合变换器的瓷砖分类视口预测

TL;DR提出了一种基于瓷砖分类的视口预测方法,使用多模态融合变压器提取每种模态的长距离依赖关系,从而捕捉用户历史输入和视频内容对未来视口选择的综合影响,并根据瓷砖的二分类结果选择未来视口,具有更好的鲁棒性和解释性。在两个常用的PVS-HM和Xu-Gaze数据集上进行了广泛实验,MFTR表现出卓越的性能,包括平均预测准确率和重叠率,同时展现出有竞争力的计算效率。