本研究构建了一个新的数据集COMICS,通过对其深入分析得出结论:计算机只有同时理解文本与图像,才能理解闭合驱动的漫画故事,本文提出了三个任务,并在此基础上比较了不同的深度神经网络结构,研究表明该数据集的视觉以及语言的基础难点都需要在未来持续深研究。
Nov, 2016
针对漫画物体检测任务的两个问题,即缺乏大规模的漫画数据集和漫画物体高度重叠所引发的现有方法的分配问题,我们提出了一个新的注释数据集和CNN模型,命名为Manga109-annotations和SSD300-fork,结果表明我们的模型在mAP评分方面优于其他检测方法。
Mar, 2018
本文介绍了Manga109数据集,这是一个包含109本日本漫画的数据集,提供了超过500k的图片和注释,为深度学习算法和其评估提供了很好的资源,同时还展示了通过该数据集实现的多媒体处理应用程序(检测、检索和生成)的几个示例。
May, 2020
该论文介绍了一种基于深度学习的模型,用于漫画中的人物对话者检测,其中使用 Mange109Dialog 数据集来提高检测准确率。
Jun, 2023
通过将度量学习与对比学习相结合的方法,我们引入了一个强大的半监督框架,用于识别漫画中的角色并保持其一致性,该框架通过对角色的面部和身体特征进行对比学习,提取了刻画个体身份的角色嵌入,从而改善了角色重新识别的效果,并为其他相关任务提供了基础,丰富了对漫画的理解。
Aug, 2023
这项研究通过引入一种新颖的多模态大型语言模型(Multimodal-LLM)架构,特别设计用于文字片断选择的闭合任务(Text-cloze),并通过使用SimCLR以自监督的方式将 comics 领域进行了特定调整,以达到比现有最先进模型在易和难两种变种中提高了10%的效果。
Mar, 2024
漫画处理中的角色识别和对话者预测是至关重要的,本研究提出了一种零样本方法,利用未注释的漫画图像单独识别角色和预测说话者名称,并通过一个迭代的多模态框架进行实验验证。
Apr, 2024
通过实验证明,手绘卡通动画与自然视频分布不同,并且提出了首个大规模卡通动画数据集Sakuga-42M,通过调整现有基础模型在卡通相关任务上获得了出色的性能,旨在将大规模化引入卡通研究,促进未来卡通应用的普适性和健壮性。
May, 2024
漫画领域通过单页分析和合成模型的发展正在迅速进步。我们提出了一个新的基准模型CoMix,旨在评估漫画分析模型的多任务能力。与现有基准模型专注于孤立任务相比,CoMix涵盖了更广泛的任务,包括目标检测、发言人识别、角色重新识别、阅读顺序、角色命名和对话生成等多模态推理任务。相比人工表现和最先进模型的比较结果显示出显著的表现差距,突出了在漫画理解方面的重大发展机遇。该数据集、基准模型和代码可在仓库链接中获取,为广大研究者提供了一个常用基准模型来评估漫画领域上大规模和多样化数据集的性能。
Jul, 2024
本研究解决了漫画理解中的特殊问题,强调漫画这一复杂媒介对视觉语言模型的挑战。通过介绍漫画理解层次框架(LoCU),提出了任务导向的方法,并对现有研究方法进行分类,最终指出未来研究的方向,推动视觉语言模型在漫画领域的应用。
Sep, 2024