EMNLPOct, 2023

M2C:自动多模态漫画补全

TL;DR通过引入视觉和文本特征,多模态漫画分析提高了人们对漫画的理解度。然而,手绘漫画的问题导致了缺失的文本内容,严重影响了人类的理解。为了解决这个问题,本研究提出了多模态漫画补充任务,并设计了一种基于大规模语言模型的方法 MCoT 来挖掘漫画中的事件知识,进一步建立了一个包含两种语言的 M2C 基准数据集。同时,我们还提出了一种有效的基线方法 FVP-M^2,通过细粒度的视觉提示来支持漫画补充任务。大量实验结果表明了 FVP-M^2 方法在多模态漫画补充任务中的有效性。