Oct, 2022

用于长视频文本摘要的分层 3D 适配器

TL;DR本文研究利用多模态信息对视频进行文本摘要,并探讨利用适配器模块和分层结构高效地将多模态信息并入预训练的文本摘要器,实验表明该方法相对于记忆密集型和完全微调的文本摘要方法具有更好的性能。