漫画密探:漫画自动生成转录
该论文介绍了一种基于深度学习的模型,用于漫画中的人物对话者检测,其中使用 Mange109Dialog 数据集来提高检测准确率。
Jun, 2023
通过引入视觉和文本特征,多模态漫画分析提高了人们对漫画的理解度。然而,手绘漫画的问题导致了缺失的文本内容,严重影响了人类的理解。为了解决这个问题,本研究提出了多模态漫画补充任务,并设计了一种基于大规模语言模型的方法 MCoT 来挖掘漫画中的事件知识,进一步建立了一个包含两种语言的 M2C 基准数据集。同时,我们还提出了一种有效的基线方法 FVP-M^2,通过细粒度的视觉提示来支持漫画补充任务。大量实验结果表明了 FVP-M^2 方法在多模态漫画补充任务中的有效性。
Oct, 2023
提出了一种新颖的从草图到漫画的框架,通过色彩向导生成彩色插图,然后根据强度引导生成带有阴影高频晕点的漫画,并在生成高质量的漫画方面显著优于现有方法。
Mar, 2024
本文旨在创建对视觉障碍人士可访问的漫画的自然语言描述,方法包括使用计算机视觉技术提取漫画图片的信息以及通过多模态大型语言模型生成描述。通过定量和定性指标测试方法的性能,实验结果令人鼓舞和有前景。
Oct, 2023
LyricWhiz 是一种功能强大,多语言的自动歌词转录方法,使用 Whisper 作为 “耳朵”,GPT-4 作为 “大脑”,有效降低了词错误率并且能够跨多种语言转录歌词。
Jun, 2023
本文介绍了 Manga109 数据集,这是一个包含 109 本日本漫画的数据集,提供了超过 500k 的图片和注释,为深度学习算法和其评估提供了很好的资源,同时还展示了通过该数据集实现的多媒体处理应用程序(检测、检索和生成)的几个示例。
May, 2020
通过自动化、音频视觉的方法,本研究提出了一种生成具有精确语音时间戳和角色标识的对话全文本的字幕的方法,无需面部检测或追踪,旨在提高现代流媒体服务中大量视频的可访问性。
Jan, 2024