Mar, 2024

漫画文本补全的多模态 Transformer

TL;DR这项研究通过引入一种新颖的多模态大型语言模型(Multimodal-LLM)架构,特别设计用于文字片断选择的闭合任务(Text-cloze),并通过使用 SimCLR 以自监督的方式将 comics 领域进行了特定调整,以达到比现有最先进模型在易和难两种变种中提高了 10% 的效果。