Sakuga-42M 数据集:推动卡通研究的规模化
本研究介绍了一个高质量的 100k 对高分辨率卡通图像及其实例标签掩膜的数据集,并提出了一个针对卡通图像中角色的准确、高分辨率的分割掩膜生成模型。该方法支持一系列基于分割的卡通编辑应用,如 3D Ken Burns 视差效果、文本引导的卡通风格编辑,以及从插图和漫画中创建木偶动画。
Dec, 2023
本文提出了一种基于内容的漫画检索系统,通过二值化检测、边缘方向直方图特征描述等方式提高了检索的准确度,并且提供了一种基于素描的交互方式,最终在包括 109 本漫画共计 21,142 页的漫画数据集上进行了验证和评估,实验结果显示该系统的检索精度高于之前的方法,通过素描查询可以提高漫画搜索的效率。
Oct, 2015
该论文介绍了一种基于深度学习的模型,用于漫画中的人物对话者检测,其中使用 Mange109Dialog 数据集来提高检测准确率。
Jun, 2023
本文介绍了 Manga109 数据集,这是一个包含 109 本日本漫画的数据集,提供了超过 500k 的图片和注释,为深度学习算法和其评估提供了很好的资源,同时还展示了通过该数据集实现的多媒体处理应用程序(检测、检索和生成)的几个示例。
May, 2020
我们介绍了 Anim-400K,这是一个包含超过 425K 对齐的日语和英语动画视频片段的全面数据集,支持各种与视频相关的任务,包括自动配音、同声翻译、引导式视频摘要和类型 / 主题 / 风格分类。我们的数据集已公开发布供研究目的使用。
Jan, 2024
本研究针对动画视频插帧问题,提出 AnimeInterp 框架,包括 Segment-Guided Matching 和 Recurrent Flow Refinement 模块,能够有效解决动画视频的颜色匹配和非线性动作问题,该方法在大规模动画三重奏数据集 ATD-12K 上表现优于现有最先进的插帧方法,并具有较优的视觉质量和鲁棒性。
Apr, 2021
最近计算机视觉(CV)和自然语言处理的快速发展受益于对实际应用中的大数据的利用。然而,这些研究领域仍受到可用数据集的数量、多样性和多样性的限制。本研究介绍了 DeepPatent2,这是一个大规模数据集,提供了超过 270 万张技术绘图,其中包含 132,890 个对象名称和 22,394 个视角,提取自 14 年的美国设计专利文件。我们展示了 DeepPatent2 在概念字幕生成方面的实用性,同时还提供了我们的数据集在促进其他研究领域如三维图像重建和图像检索方面的潜在用途。
Nov, 2023
CogCartoon 是一种基于预训练扩散模型的实用故事可视化方法,通过创新的角色插件生成策略和插件引导推理策略,实现对故事图像的灵活布局和个性化定制,从而在长篇故事可视化和逼真风格故事可视化等挑战性任务中表现出优越性。
Dec, 2023
我们提出了一种新的 Animation CelebHeads(AnimeCeleb)数据集,利用 3D 动画模型作为可控图像采样器,为头部动画重现提供了大量的头部图像和对应的详细姿势注释,借助半自动流水线构建注释系统,通过 AnimeCeleb 进行训练,我们的跨域头部重新表演模型在推断过程中可以轻松地将用户的动作转移到任意的动画头部,证明 AnimeCeleb 对于训练动画头部重现模型的实用性以及我们的跨域头部重新表演模型相比现有最先进的方法的优越性。
Nov, 2021
我们创建了一个名为 SketchyScene 的数据集,旨在推进对物体和场景级别的素描理解的研究,该数据集通过一种新颖且精心设计的众包流程创建,包含大约 29,000 个场景级别的素描、7,000 多对场景模板和照片以及 11,000 多个物体的素描,并且数据集易于扩展和修改,可以训练新的计算模型以进行场景素描的语义分割等多种应用。
Aug, 2018