通过引入视觉和文本特征,多模态漫画分析提高了人们对漫画的理解度。然而,手绘漫画的问题导致了缺失的文本内容,严重影响了人类的理解。为了解决这个问题,本研究提出了多模态漫画补充任务,并设计了一种基于大规模语言模型的方法 MCoT 来挖掘漫画中的事件知识,进一步建立了一个包含两种语言的 M2C 基准数据集。同时,我们还提出了一种有效的基线方法 FVP-M^2,通过细粒度的视觉提示来支持漫画补充任务。大量实验结果表明了 FVP-M^2 方法在多模态漫画补充任务中的有效性。
Oct, 2023
以 Magi 模型解决日本漫画的视觉障碍问题,实现阅读顺序的检测和对话转录。
Jan, 2024
该论文提出了一种基于机器翻译、多模态、神经适配器和引导自注意机制的新型多模态机器翻译方法,同时还发布了 CoMMuTE 数据集,并在该数据集上取得了显著的性能提升。
Dec, 2022
该论文介绍了一种基于深度学习的模型,用于漫画中的人物对话者检测,其中使用 Mange109Dialog 数据集来提高检测准确率。
Jun, 2023
本文中,我们研究了多模式机器翻译(MMT)中视觉模态的贡献,通过分析证明,即使在有限的文本和文本上下文的情况下,模型也能够利用视觉输入来生成更好的翻译结果。
Mar, 2019
本文提出了一种 MTL 模型,以实现对漫画画板的密集预测,从而帮助作者重新组织他们的叙述,并探讨了与现有方法整合的可行性。
Jul, 2023
本文研究了多模式机器翻译(MMT)系统在存在视觉上下文时比纯文本神经机器翻译(NMT)系统表现更好,并探讨了视觉数据集对于 MMT 模型的训练和评估的重要性,表明 MMT 架构相关的有效研究目前受到合适数据集的限制,未来的 MMT 数据集必须经过仔细考虑。
Sep, 2021
本研究提出了一种基于多模态机器翻译框架的无监督神经机器翻译方法,通过图像识别加强双向多模态翻译的学习效果,在 Multi30K 数据集上与传统基于文本的神经机器翻译相比,本方法有更好的实验结果。
Nov, 2018
我们提出了一个翻译和完善的方法,通过使用视觉信息来提高目标语言文本上下文的使用以及恢复源语言中错误或缺失的单词,从而实现多模态机器翻译的最新成果。
Jun, 2019
本文旨在研究如何利用视觉信息来弥补缺失的源文本背景,评估不同的多模态方法和视觉特征对最先进的同时机器翻译 (SiMT) 框架的影响。结果表明,视觉背景是有帮助的,基于明确的物体区域信息的可视化模型优于常用的全局特征,在低延迟情境下的表现可提高 3 个 BLEU 分数。我们的定性分析展示,只有多模态系统才能正常翻译英语到标记性别的语言,并处理英语和法语之间的形容词和名词词序等差异。
Sep, 2020