本文介绍了 Manga109 数据集,这是一个包含 109 本日本漫画的数据集,提供了超过 500k 的图片和注释,为深度学习算法和其评估提供了很好的资源,同时还展示了通过该数据集实现的多媒体处理应用程序(检测、检索和生成)的几个示例。
May, 2020
本文提出了一种基于内容的漫画检索系统,通过二值化检测、边缘方向直方图特征描述等方式提高了检索的准确度,并且提供了一种基于素描的交互方式,最终在包括 109 本漫画共计 21,142 页的漫画数据集上进行了验证和评估,实验结果显示该系统的检索精度高于之前的方法,通过素描查询可以提高漫画搜索的效率。
Oct, 2015
以 Magi 模型解决日本漫画的视觉障碍问题,实现阅读顺序的检测和对话转录。
Jan, 2024
漫画处理中的角色识别和对话者预测是至关重要的,本研究提出了一种零样本方法,利用未注释的漫画图像单独识别角色和预测说话者名称,并通过一个迭代的多模态框架进行实验验证。
Apr, 2024
我们提出了一个多模态上下文感知的机器翻译框架,包括自动语料库构建和新的评估基准,此外开发了全自动漫画翻译系统。
Dec, 2020
通过引入视觉和文本特征,多模态漫画分析提高了人们对漫画的理解度。然而,手绘漫画的问题导致了缺失的文本内容,严重影响了人类的理解。为了解决这个问题,本研究提出了多模态漫画补充任务,并设计了一种基于大规模语言模型的方法 MCoT 来挖掘漫画中的事件知识,进一步建立了一个包含两种语言的 M2C 基准数据集。同时,我们还提出了一种有效的基线方法 FVP-M^2,通过细粒度的视觉提示来支持漫画补充任务。大量实验结果表明了 FVP-M^2 方法在多模态漫画补充任务中的有效性。
Oct, 2023
这篇论文提出了两个任务,包括对话生成和对话说话者识别,并构建了一个新的数据集 DialStory 以进行评估,同时提出了学习显式角色表示以提高性能,并通过实验和案例研究表明,我们的方法可生成更连贯和信息量更大的对话,并实现了比强基线更高的说话者识别准确度。
Sep, 2022
本文提出一种新方法,自动构建对话机器翻译的平行话语语料库,经实验表明,采用该方法可以显著提高翻译质量,同时公开了大约 10 万条已经手动标注了发言者和对话边界的平行话语数据。
May, 2016
通过实验证明,手绘卡通动画与自然视频分布不同,并且提出了首个大规模卡通动画数据集 Sakuga-42M,通过调整现有基础模型在卡通相关任务上获得了出色的性能,旨在将大规模化引入卡通研究,促进未来卡通应用的普适性和健壮性。
May, 2024
本文描述了对 Cornell 电影对话语料库中的 863 个发言人进行人工特征标注的方法,这些标注可以用于个性化语言模型,包括特征引用和角色描述,并自动提取了超过 95%的电影的六个 Metadata。实验证明,这些注释可以有效地用于个性化语言模型,可以将语言困惑度降低多达 8.5%。
Mar, 2023