漫画数据集框架：用于检测基准测试的漫画数据集混合

Jul, 2024

漫画数据集框架：用于检测基准测试的漫画数据集混合

Comics Datasets Framework: Mix of Comics datasets for detection benchmarking

Emanuele Vivoli, Irene Campaioli, Mariateresa Nardoni, Niccolò Biondi, Marco Bertini...

TL;DR通过标准化漫画数据集的注释、引入各种漫画风格和建立清晰可复制的基准结果，本研究旨在解决计算研究中面临的挑战，并在漫画物体检测方面取得了显著进展，为依赖于准确物体识别的更复杂计算任务奠定了基础。

Abstract

comics, as a medium, uniquely combine text and images in styles often distinct from real-world visuals. For the past three decades, computational research on →

发现论文，激发创造

漫画叙事中的调板推理：排水沟的神奇之谜

本研究构建了一个新的数据集COMICS，通过对其深入分析得出结论：计算机只有同时理解文本与图像，才能理解闭合驱动的漫画故事，本文提出了三个任务，并在此基础上比较了不同的深度神经网络结构，研究表明该数据集的视觉以及语言的基础难点都需要在未来持续深研究。

Nov, 2016

使用 Manga109 注释进行漫画目标检测

针对漫画物体检测任务的两个问题，即缺乏大规模的漫画数据集和漫画物体高度重叠所引发的现有方法的分配问题，我们提出了一个新的注释数据集和CNN模型，命名为Manga109-annotations和SSD300-fork，结果表明我们的模型在mAP评分方面优于其他检测方法。

Mar, 2018

建立一个包含多媒体应用注释的漫画数据集“Manga109

本文介绍了Manga109数据集，这是一个包含109本日本漫画的数据集，提供了超过500k的图片和注释，为深度学习算法和其评估提供了很好的资源，同时还展示了通过该数据集实现的多媒体处理应用程序（检测、检索和生成）的几个示例。

May, 2020

Manga109Dialog：一个用于漫画角色语音检测的大规模对话数据集

该论文介绍了一种基于深度学习的模型，用于漫画中的人物对话者检测，其中使用 Mange109Dialog 数据集来提高检测准确率。

Jun, 2023

面向漫画角色再识别的身份感知半监督学习

通过将度量学习与对比学习相结合的方法，我们引入了一个强大的半监督框架，用于识别漫画中的角色并保持其一致性，该框架通过对角色的面部和身体特征进行对比学习，提取了刻画个体身份的角色嵌入，从而改善了角色重新识别的效果，并为其他相关任务提供了基础，丰富了对漫画的理解。

Aug, 2023

漫画文本补全的多模态Transformer

这项研究通过引入一种新颖的多模态大型语言模型（Multimodal-LLM）架构，特别设计用于文字片断选择的闭合任务（Text-cloze），并通过使用SimCLR以自监督的方式将 comics 领域进行了特定调整，以达到比现有最先进模型在易和难两种变种中提高了10%的效果。

Mar, 2024

通过迭代多模态融合实现漫画中的零样本角色识别和说话人预测

漫画处理中的角色识别和对话者预测是至关重要的，本研究提出了一种零样本方法，利用未注释的漫画图像单独识别角色和预测说话者名称，并通过一个迭代的多模态框架进行实验验证。

Apr, 2024

Sakuga-42M 数据集：推动卡通研究的规模化

通过实验证明，手绘卡通动画与自然视频分布不同，并且提出了首个大规模卡通动画数据集Sakuga-42M，通过调整现有基础模型在卡通相关任务上获得了出色的性能，旨在将大规模化引入卡通研究，促进未来卡通应用的普适性和健壮性。

May, 2024

CoMix：多任务漫画理解的综合基准

漫画领域通过单页分析和合成模型的发展正在迅速进步。我们提出了一个新的基准模型CoMix，旨在评估漫画分析模型的多任务能力。与现有基准模型专注于孤立任务相比，CoMix涵盖了更广泛的任务，包括目标检测、发言人识别、角色重新识别、阅读顺序、角色命名和对话生成等多模态推理任务。相比人工表现和最先进模型的比较结果显示出显著的表现差距，突出了在漫画理解方面的重大发展机遇。该数据集、基准模型和代码可在仓库链接中获取，为广大研究者提供了一个常用基准模型来评估漫画领域上大规模和多样化数据集的性能。

Jul, 2024

视觉与语言中的一块缺失拼图：漫画理解的调查

本研究解决了漫画理解中的特殊问题，强调漫画这一复杂媒介对视觉语言模型的挑战。通过介绍漫画理解层次框架（LoCU），提出了任务导向的方法，并对现有研究方法进行分类，最终指出未来研究的方向，推动视觉语言模型在漫画领域的应用。

Sep, 2024