本研究构建了一个新的数据集COMICS,通过对其深入分析得出结论:计算机只有同时理解文本与图像,才能理解闭合驱动的漫画故事,本文提出了三个任务,并在此基础上比较了不同的深度神经网络结构,研究表明该数据集的视觉以及语言的基础难点都需要在未来持续深研究。
Nov, 2016
该论文介绍了一种基于深度学习的模型,用于漫画中的人物对话者检测,其中使用 Mange109Dialog 数据集来提高检测准确率。
Jun, 2023
本文旨在创建对视觉障碍人士可访问的漫画的自然语言描述,方法包括使用计算机视觉技术提取漫画图片的信息以及通过多模态大型语言模型生成描述。通过定量和定性指标测试方法的性能,实验结果令人鼓舞和有前景。
Oct, 2023
通过引入视觉和文本特征,多模态漫画分析提高了人们对漫画的理解度。然而,手绘漫画的问题导致了缺失的文本内容,严重影响了人类的理解。为了解决这个问题,本研究提出了多模态漫画补充任务,并设计了一种基于大规模语言模型的方法MCoT来挖掘漫画中的事件知识,进一步建立了一个包含两种语言的M2C基准数据集。同时,我们还提出了一种有效的基线方法FVP-M^2,通过细粒度的视觉提示来支持漫画补充任务。大量实验结果表明了FVP-M^2方法在多模态漫画补充任务中的有效性。
这项研究通过引入一种新颖的多模态大型语言模型(Multimodal-LLM)架构,特别设计用于文字片断选择的闭合任务(Text-cloze),并通过使用SimCLR以自监督的方式将 comics 领域进行了特定调整,以达到比现有最先进模型在易和难两种变种中提高了10%的效果。
Mar, 2024
漫画处理中的角色识别和对话者预测是至关重要的,本研究提出了一种零样本方法,利用未注释的漫画图像单独识别角色和预测说话者名称,并通过一个迭代的多模态框架进行实验验证。
Apr, 2024
通过对具有矛盾叙事的漫画展开研究,本文引入了YesBut评估基准,旨在评估人工智能在识别和解释具有幽默矛盾的漫画方面的能力。通过广泛的实验和分析,我们发现即使是最先进的模型在此任务上仍然落后于人类表现,为人工智能在理解人类创造性表达方面的当前限制和潜在改进提供了见解。
May, 2024
通过标准化漫画数据集的注释、引入各种漫画风格和建立清晰可复制的基准结果,本研究旨在解决计算研究中面临的挑战,并在漫画物体检测方面取得了显著进展,为依赖于准确物体识别的更复杂计算任务奠定了基础。
Jul, 2024
漫画领域通过单页分析和合成模型的发展正在迅速进步。我们提出了一个新的基准模型CoMix,旨在评估漫画分析模型的多任务能力。与现有基准模型专注于孤立任务相比,CoMix涵盖了更广泛的任务,包括目标检测、发言人识别、角色重新识别、阅读顺序、角色命名和对话生成等多模态推理任务。相比人工表现和最先进模型的比较结果显示出显著的表现差距,突出了在漫画理解方面的重大发展机遇。该数据集、基准模型和代码可在仓库链接中获取,为广大研究者提供了一个常用基准模型来评估漫画领域上大规模和多样化数据集的性能。
使用提示工程技术和上下文信息对大型语言模型进行微调,以生成完整故事的准确文本描述,以便转发到现成的语音合成工具。