ICCVOct, 2023

面向所有人的漫画:为漫画条目生成易读的文本描述

TL;DR本文旨在创建对视觉障碍人士可访问的漫画的自然语言描述,方法包括使用计算机视觉技术提取漫画图片的信息以及通过多模态大型语言模型生成描述。通过定量和定性指标测试方法的性能,实验结果令人鼓舞和有前景。