May, 2023

D$^2$TV: 双重知识蒸馏和目标导向视觉建模,用于多对多多模态摘要

TL;DR本文提出一个多对多多模态摘要(M$^3$S)任务,该任务旨在以任何语言为输入,生成任何语言摘要,并包括相应的图像序列,进一步提出了一种双重知识蒸馏和面向目标视觉建模的框架,以在M$^3$S任务中实现目标导向的视觉特征。最后还贡献了一个M$^3$Sum数据集。