Sep, 2024

视觉与语言中的一块缺失拼图:漫画理解的调查

TL;DR本研究解决了漫画理解中的特殊问题,强调漫画这一复杂媒介对视觉语言模型的挑战。通过介绍漫画理解层次框架(LoCU),提出了任务导向的方法,并对现有研究方法进行分类,最终指出未来研究的方向,推动视觉语言模型在漫画领域的应用。