CVPRMar, 2023

双重对比损失的多模态摘要生成:Align and Attend

TL;DR介绍了一种基于 transformer 的模型:Align and Attend Multimodal Summarization (A2Summ),可以处理不同模态的输入。作者提出了两种新的对比损失函数来建模不同样本间的相互关系和内部关系。在常用的四个数据集上,A2Summ 的性能均优于之前的方法。此外,作者还公开了一个数据集:BLiSS,包含直播视频和带有注释的摘要。