M2C：自动多模态漫画补全

EMNLPOct, 2023

M2C: Towards Automatic Multimodal Manga Complement

Hongcheng Guo, Boyang Wang, Jiaqi Bai, Jiaheng Liu, Jian Yang...

TL;DR通过引入视觉和文本特征，多模态漫画分析提高了人们对漫画的理解度。然而，手绘漫画的问题导致了缺失的文本内容，严重影响了人类的理解。为了解决这个问题，本研究提出了多模态漫画补充任务，并设计了一种基于大规模语言模型的方法 MCoT 来挖掘漫画中的事件知识，进一步建立了一个包含两种语言的 M2C 基准数据集。同时，我们还提出了一种有效的基线方法 FVP-M^2，通过细粒度的视觉提示来支持漫画补充任务。大量实验结果表明了 FVP-M^2 方法在多模态漫画补充任务中的有效性。

Abstract

multimodal manga analysis focuses on enhancing manga understanding with visual and textual features, which has attracted considerable attention from both natural language processing and computer vision communitie

multimodal manga analysis visual and textual features multimodal manga complement m2c benchmark dataset fvp-m^2 method

发现论文，激发创造

全自动漫画翻译

我们提出了一个多模态上下文感知的机器翻译框架，包括自动语料库构建和新的评估基准，此外开发了全自动漫画翻译系统。

Dec, 2020

密集多任务学习以重新配置连环漫画

本文提出了一种 MTL 模型，以实现对漫画画板的密集预测，从而帮助作者重新组织他们的叙述，并探讨了与现有方法整合的可行性。

Jul, 2023

漫画文本补全的多模态 Transformer

这项研究通过引入一种新颖的多模态大型语言模型（Multimodal-LLM）架构，特别设计用于文字片断选择的闭合任务（Text-cloze），并通过使用 SimCLR 以自监督的方式将 comics 领域进行了特定调整，以达到比现有最先进模型在易和难两种变种中提高了 10% 的效果。

Mar, 2024

Manga109Dialog：一个用于漫画角色语音检测的大规模对话数据集

该论文介绍了一种基于深度学习的模型，用于漫画中的人物对话者检测，其中使用 Mange109Dialog 数据集来提高检测准确率。

Jun, 2023

使用多模式分层交叉注意力模型标记在线视频中的喜剧恶作剧内容

我们提出了一种新颖的端到端多模态系统用于探测在线媒体中的可疑内容，特别是针对喜剧恶作剧这一子类别。

Jun, 2024

漫画密探：漫画自动生成转录

以 Magi 模型解决日本漫画的视觉障碍问题，实现阅读顺序的检测和对话转录。

Jan, 2024

CoMM：一种用于多模态理解与生成的连贯交织的图像文本数据集

CoMM 数据集提供了同时生成图像和文本的高质量多模态内容，以增强多模态大语言模型的一致性和准确性，并在多个下游任务中显示出显著的上下文学习能力。

Jun, 2024

利用图像解决歧义问题：改进的多模态机器翻译和对比评估

该论文提出了一种基于机器翻译、多模态、神经适配器和引导自注意机制的新型多模态机器翻译方法，同时还发布了 CoMMuTE 数据集，并在该数据集上取得了显著的性能提升。

Dec, 2022

建立一个包含多媒体应用注释的漫画数据集 “Manga109

本文介绍了 Manga109 数据集，这是一个包含 109 本日本漫画的数据集，提供了超过 500k 的图片和注释，为深度学习算法和其评估提供了很好的资源，同时还展示了通过该数据集实现的多媒体处理应用程序（检测、检索和生成）的几个示例。

May, 2020

MaRU：连接视觉与语言的漫画检索与理解系统

通过连接视觉和语言，我们提出了 MaRU（Manga 检索与理解），一个多阶段系统，旨在促进 Manga 帧内对话和场景的有效检索。MaRU 的架构整合了文本和帧边界框的目标检测模型，用于文本识别的视觉编码 - 解码模型，用于嵌入文本的文本编码器，以及将文本和图像信息合并到统一嵌入空间以进行场景检索的视觉 - 文本编码器。严格的评估表明，MaRU 在端到端对话检索方面表现出色，并对场景检索展现出有希望的结果。

Oct, 2023