为盲人和低视力读者打造无障碍漫画
本研究构建了一个新的数据集COMICS,通过对其深入分析得出结论:计算机只有同时理解文本与图像,才能理解闭合驱动的漫画故事,本文提出了三个任务,并在此基础上比较了不同的深度神经网络结构,研究表明该数据集的视觉以及语言的基础难点都需要在未来持续深研究。
Nov, 2016
本文旨在创建对视觉障碍人士可访问的漫画的自然语言描述,方法包括使用计算机视觉技术提取漫画图片的信息以及通过多模态大型语言模型生成描述。通过定量和定性指标测试方法的性能,实验结果令人鼓舞和有前景。
Oct, 2023
通过引入视觉和文本特征,多模态漫画分析提高了人们对漫画的理解度。然而,手绘漫画的问题导致了缺失的文本内容,严重影响了人类的理解。为了解决这个问题,本研究提出了多模态漫画补充任务,并设计了一种基于大规模语言模型的方法MCoT来挖掘漫画中的事件知识,进一步建立了一个包含两种语言的M2C基准数据集。同时,我们还提出了一种有效的基线方法FVP-M^2,通过细粒度的视觉提示来支持漫画补充任务。大量实验结果表明了FVP-M^2方法在多模态漫画补充任务中的有效性。
Oct, 2023
我们提出了一种基于理论启发的视觉叙事生成器,该生成器融合了漫画创作习语,将漫画的概念原则转化为整合理论的系统层次,用于创作漫画内容。生成器通过从面板构图、物体位置、面板转换和叙事要素的层次上进行顺序决策来创建漫画。每个层次的决策基于叙事目标,遵循媒体的相应层次习语。借鉴Cohn的叙事语法提供整体故事弧线。面板构图采用受三分法启发的照片构图。基于McCloud提出的面板转换理论,包括场景、人物和时间变化之间的焦点转移的转换层被编码进系统中。最后,基于对动作动词使用动作动词本体论进行分析,添加常见的叠加符号(例如感叹号)。通过各种设置和示例输出展示了生成的漫画的多样性。该生成器和相关模块可以用于视觉叙事创作,并进一步研究视觉叙事理解的计算模型。
Dec, 2023
这项研究通过引入一种新颖的多模态大型语言模型(Multimodal-LLM)架构,特别设计用于文字片断选择的闭合任务(Text-cloze),并通过使用SimCLR以自监督的方式将 comics 领域进行了特定调整,以达到比现有最先进模型在易和难两种变种中提高了10%的效果。
Mar, 2024
通过使用预训练的基础模型和统一的框架,我们提出了Uni-AD方法,以交错的多模态顺序作为输入生成音频描述,该方法通过将视频特征映射到文本特征空间以实现不同模态特征的更好对齐,并引入角色细化模块识别在视频上下文中发挥更重要作用的主要角色,同时结合上下文信息和对比损失进一步增强了生成的音频描述的平滑性和连贯性,实验结果表明Uni-AD在音频描述生成上取得了最先进的性能。
Mar, 2024
漫画处理中的角色识别和对话者预测是至关重要的,本研究提出了一种零样本方法,利用未注释的漫画图像单独识别角色和预测说话者名称,并通过一个迭代的多模态框架进行实验验证。
Apr, 2024
漫画领域通过单页分析和合成模型的发展正在迅速进步。我们提出了一个新的基准模型CoMix,旨在评估漫画分析模型的多任务能力。与现有基准模型专注于孤立任务相比,CoMix涵盖了更广泛的任务,包括目标检测、发言人识别、角色重新识别、阅读顺序、角色命名和对话生成等多模态推理任务。相比人工表现和最先进模型的比较结果显示出显著的表现差距,突出了在漫画理解方面的重大发展机遇。该数据集、基准模型和代码可在仓库链接中获取,为广大研究者提供了一个常用基准模型来评估漫画领域上大规模和多样化数据集的性能。
Jul, 2024
本研究解决了视觉障碍人士无法接触漫画作品的问题,提出一种自动生成完整漫画章节对话文本的新方法,确保叙述一致性。研究主要发现是开发了Magiv2模型,能够高效、准确地生成漫画章节文本,显著提升了角色对话的识别精度,并提供了新数据集以支持这一任务。
Aug, 2024