漫画密探：漫画自动生成转录

Jan, 2024

The Manga Whisperer: Automatically Generating Transcriptions for Comics

Ragav Sachdeva, Andrew Zisserman

TL;DR以 Magi 模型解决日本漫画的视觉障碍问题，实现阅读顺序的检测和对话转录。

Abstract

In the past few decades, japanese comics, commonly referred to as manga, have transcended both cultural and linguistic boundaries to become a true worldwide sensation. Yet, the inherent reliance on visual cues an

japanese comics manga visual impairments diarisation transcription

发现论文，激发创造

全自动漫画翻译

我们提出了一个多模态上下文感知的机器翻译框架，包括自动语料库构建和新的评估基准，此外开发了全自动漫画翻译系统。

Dec, 2020

Manga109Dialog：一个用于漫画角色语音检测的大规模对话数据集

该论文介绍了一种基于深度学习的模型，用于漫画中的人物对话者检测，其中使用 Mange109Dialog 数据集来提高检测准确率。

Jun, 2023

M2C：自动多模态漫画补全

通过引入视觉和文本特征，多模态漫画分析提高了人们对漫画的理解度。然而，手绘漫画的问题导致了缺失的文本内容，严重影响了人类的理解。为了解决这个问题，本研究提出了多模态漫画补充任务，并设计了一种基于大规模语言模型的方法 MCoT 来挖掘漫画中的事件知识，进一步建立了一个包含两种语言的 M2C 基准数据集。同时，我们还提出了一种有效的基线方法 FVP-M^2，通过细粒度的视觉提示来支持漫画补充任务。大量实验结果表明了 FVP-M^2 方法在多模态漫画补充任务中的有效性。

Oct, 2023

Sketch2Manga：用扩散模型从素描生成有暗影的漫画画笔稿

提出了一种新颖的从草图到漫画的框架，通过色彩向导生成彩色插图，然后根据强度引导生成带有阴影高频晕点的漫画，并在生成高质量的漫画方面显著优于现有方法。

Mar, 2024

Comicolorization: 半自动漫画上色

开发了一种半自动的漫画图像 “Comicolorization” 上色系统，通过参考彩色图像引导，可实现漫画的全彩上色。

Jun, 2017

面向所有人的漫画：为漫画条目生成易读的文本描述

本文旨在创建对视觉障碍人士可访问的漫画的自然语言描述，方法包括使用计算机视觉技术提取漫画图片的信息以及通过多模态大型语言模型生成描述。通过定量和定性指标测试方法的性能，实验结果令人鼓舞和有前景。

Oct, 2023

LyricWhiz：通过对 ChatGPT 进行耳语的方式实现鲁棒性多语言零样本歌词转录

LyricWhiz 是一种功能强大，多语言的自动歌词转录方法，使用 Whisper 作为 “耳朵”，GPT-4 作为 “大脑”，有效降低了词错误率并且能够跨多种语言转录歌词。

Jun, 2023

剧本音视频的讲话人分离

利用制作脚本为演讲人辨别任务提取伪标记数据的半监督方法在 66 个节目测试集上相对于两个非监督基准模型显示出了 51.7% 的改进。

Aug, 2023

建立一个包含多媒体应用注释的漫画数据集 “Manga109

本文介绍了 Manga109 数据集，这是一个包含 109 本日本漫画的数据集，提供了超过 500k 的图片和注释，为深度学习算法和其评估提供了很好的资源，同时还展示了通过该数据集实现的多媒体处理应用程序（检测、检索和生成）的几个示例。

May, 2020

观看、聆听和识别：基于字符的音频视觉字幕

通过自动化、音频视觉的方法，本研究提出了一种生成具有精确语音时间戳和角色标识的对话全文本的字幕的方法，无需面部检测或追踪，旨在提高现代流媒体服务中大量视频的可访问性。

Jan, 2024