视觉与语言中的一块缺失拼图：漫画理解的调查

Sep, 2024

视觉与语言中的一块缺失拼图：漫画理解的调查

One missing piece in Vision and Language: A Survey on Comics Understanding

Emanuele Vivoli, Andrey Barsky, Mohamed Ali Souibgui, Artemis LLabres, Marco Bertini...

TL;DR本研究解决了漫画理解中的特殊问题，强调漫画这一复杂媒介对视觉语言模型的挑战。通过介绍漫画理解层次框架（LoCU），提出了任务导向的方法，并对现有研究方法进行分类，最终指出未来研究的方向，推动视觉语言模型在漫画领域的应用。

Abstract

Vision-Language Models have recently evolved into versatile systems capable of high performance across a range of tasks, such as document understanding, visual question answering, and grounding, often in zero-shot settings. →

发现论文，激发创造

漫画叙事中的调板推理：排水沟的神奇之谜

本研究构建了一个新的数据集COMICS，通过对其深入分析得出结论：计算机只有同时理解文本与图像，才能理解闭合驱动的漫画故事，本文提出了三个任务，并在此基础上比较了不同的深度神经网络结构，研究表明该数据集的视觉以及语言的基础难点都需要在未来持续深研究。

Nov, 2016

Manga109Dialog：一个用于漫画角色语音检测的大规模对话数据集

该论文介绍了一种基于深度学习的模型，用于漫画中的人物对话者检测，其中使用 Mange109Dialog 数据集来提高检测准确率。

Jun, 2023

面向所有人的漫画: 为漫画条目生成易读的文本描述

本文旨在创建对视觉障碍人士可访问的漫画的自然语言描述，方法包括使用计算机视觉技术提取漫画图片的信息以及通过多模态大型语言模型生成描述。通过定量和定性指标测试方法的性能，实验结果令人鼓舞和有前景。

Oct, 2023

M2C：自动多模态漫画补全

通过引入视觉和文本特征，多模态漫画分析提高了人们对漫画的理解度。然而，手绘漫画的问题导致了缺失的文本内容，严重影响了人类的理解。为了解决这个问题，本研究提出了多模态漫画补充任务，并设计了一种基于大规模语言模型的方法MCoT来挖掘漫画中的事件知识，进一步建立了一个包含两种语言的M2C基准数据集。同时，我们还提出了一种有效的基线方法FVP-M^2，通过细粒度的视觉提示来支持漫画补充任务。大量实验结果表明了FVP-M^2方法在多模态漫画补充任务中的有效性。

Oct, 2023

漫画文本补全的多模态Transformer

这项研究通过引入一种新颖的多模态大型语言模型（Multimodal-LLM）架构，特别设计用于文字片断选择的闭合任务（Text-cloze），并通过使用SimCLR以自监督的方式将 comics 领域进行了特定调整，以达到比现有最先进模型在易和难两种变种中提高了10%的效果。

Mar, 2024

通过迭代多模态融合实现漫画中的零样本角色识别和说话人预测

漫画处理中的角色识别和对话者预测是至关重要的，本研究提出了一种零样本方法，利用未注释的漫画图像单独识别角色和预测说话者名称，并通过一个迭代的多模态框架进行实验验证。

Apr, 2024

解读并列: AI 模型能理解幽默的矛盾吗

通过对具有矛盾叙事的漫画展开研究，本文引入了YesBut评估基准，旨在评估人工智能在识别和解释具有幽默矛盾的漫画方面的能力。通过广泛的实验和分析，我们发现即使是最先进的模型在此任务上仍然落后于人类表现，为人工智能在理解人类创造性表达方面的当前限制和潜在改进提供了见解。

May, 2024

漫画数据集框架：用于检测基准测试的漫画数据集混合

通过标准化漫画数据集的注释、引入各种漫画风格和建立清晰可复制的基准结果，本研究旨在解决计算研究中面临的挑战，并在漫画物体检测方面取得了显著进展，为依赖于准确物体识别的更复杂计算任务奠定了基础。

Jul, 2024

CoMix：多任务漫画理解的综合基准

漫画领域通过单页分析和合成模型的发展正在迅速进步。我们提出了一个新的基准模型CoMix，旨在评估漫画分析模型的多任务能力。与现有基准模型专注于孤立任务相比，CoMix涵盖了更广泛的任务，包括目标检测、发言人识别、角色重新识别、阅读顺序、角色命名和对话生成等多模态推理任务。相比人工表现和最先进模型的比较结果显示出显著的表现差距，突出了在漫画理解方面的重大发展机遇。该数据集、基准模型和代码可在仓库链接中获取，为广大研究者提供了一个常用基准模型来评估漫画领域上大规模和多样化数据集的性能。

Jul, 2024

为盲人和低视力读者打造无障碍漫画

使用提示工程技术和上下文信息对大型语言模型进行微调，以生成完整故事的准确文本描述，以便转发到现成的语音合成工具。

Jul, 2024