Apr, 2024
通过迭代多模态融合实现漫画中的零样本角色识别和说话人预测
Zero-Shot Character Identification and Speaker Prediction in Comics via Iterative Multimodal Fusion
Yingxuan Li, Ryota Hinami, Kiyoharu Aizawa, Yusuke Matsui
TL;DR漫画处理中的角色识别和对话者预测是至关重要的,本研究提出了一种零样本方法,利用未注释的漫画图像单独识别角色和预测说话者名称,并通过一个迭代的多模态框架进行实验验证。