Manga109Dialog：一个用于漫画角色语音检测的大规模对话数据集

Jun, 2023

Manga109Dialog：一个用于漫画角色语音检测的大规模对话数据集

Manga109Dialog A Large-scale Dialogue Dataset for Comics Speaker Detection

Yingxuan Li, Kiyoharu Aizawa, Yusuke Matsui

TL;DR该论文介绍了一种基于深度学习的模型，用于漫画中的人物对话者检测，其中使用 Mange109Dialog 数据集来提高检测准确率。

Abstract

The expanding market for e-comics has spurred interest in the development of automated methods to analyze comics. For further understanding of comics, an automated approach is needed to link text in comics to cha

e-comics automated approach comics speaker detection manga109dialog dataset deep learning-based method

发现论文，激发创造

建立一个包含多媒体应用注释的漫画数据集 “Manga109

本文介绍了 Manga109 数据集，这是一个包含 109 本日本漫画的数据集，提供了超过 500k 的图片和注释，为深度学习算法和其评估提供了很好的资源，同时还展示了通过该数据集实现的多媒体处理应用程序（检测、检索和生成）的几个示例。

May, 2020

基于草图的漫画检索：使用 Manga109 数据集

本文提出了一种基于内容的漫画检索系统，通过二值化检测、边缘方向直方图特征描述等方式提高了检索的准确度，并且提供了一种基于素描的交互方式，最终在包括 109 本漫画共计 21,142 页的漫画数据集上进行了验证和评估，实验结果显示该系统的检索精度高于之前的方法，通过素描查询可以提高漫画搜索的效率。

Oct, 2015

漫画密探：漫画自动生成转录

以 Magi 模型解决日本漫画的视觉障碍问题，实现阅读顺序的检测和对话转录。

Jan, 2024

通过迭代多模态融合实现漫画中的零样本角色识别和说话人预测

漫画处理中的角色识别和对话者预测是至关重要的，本研究提出了一种零样本方法，利用未注释的漫画图像单独识别角色和预测说话者名称，并通过一个迭代的多模态框架进行实验验证。

Apr, 2024

全自动漫画翻译

我们提出了一个多模态上下文感知的机器翻译框架，包括自动语料库构建和新的评估基准，此外开发了全自动漫画翻译系统。

Dec, 2020

M2C：自动多模态漫画补全

通过引入视觉和文本特征，多模态漫画分析提高了人们对漫画的理解度。然而，手绘漫画的问题导致了缺失的文本内容，严重影响了人类的理解。为了解决这个问题，本研究提出了多模态漫画补充任务，并设计了一种基于大规模语言模型的方法 MCoT 来挖掘漫画中的事件知识，进一步建立了一个包含两种语言的 M2C 基准数据集。同时，我们还提出了一种有效的基线方法 FVP-M^2，通过细粒度的视觉提示来支持漫画补充任务。大量实验结果表明了 FVP-M^2 方法在多模态漫画补充任务中的有效性。

Oct, 2023

故事中角色对话理解和生成的基准测试

这篇论文提出了两个任务，包括对话生成和对话说话者识别，并构建了一个新的数据集 DialStory 以进行评估，同时提出了学习显式角色表示以提高性能，并通过实验和案例研究表明，我们的方法可生成更连贯和信息量更大的对话，并实现了比强基线更高的说话者识别准确度。

Sep, 2022

对话翻译篇章语料库的自动构建

本文提出一种新方法，自动构建对话机器翻译的平行话语语料库，经实验表明，采用该方法可以显著提高翻译质量，同时公开了大约 10 万条已经手动标注了发言者和对话边界的平行话语数据。

May, 2016

Sakuga-42M 数据集：推动卡通研究的规模化

通过实验证明，手绘卡通动画与自然视频分布不同，并且提出了首个大规模卡通动画数据集 Sakuga-42M，通过调整现有基础模型在卡通相关任务上获得了出色的性能，旨在将大规模化引入卡通研究，促进未来卡通应用的普适性和健壮性。

May, 2024

使用丰富元数据注释对屏幕人物进行个性化语言建模

本文描述了对 Cornell 电影对话语料库中的 863 个发言人进行人工特征标注的方法，这些标注可以用于个性化语言模型，包括特征引用和角色描述，并自动提取了超过 95％的电影的六个 Metadata。实验证明，这些注释可以有效地用于个性化语言模型，可以将语言困惑度降低多达 8.5％。

Mar, 2023