GMN: 实用文档信息提取的生成式多模型网络
我们提出一种混合专家 GAN (MEGAN)方法,它使用多个生成器网络进行集成学习,并通过门控网络在不同条件下选择适当的网络,以生成具有特定子集的模式的图像。我们证明各自利用数据的不同部分,达到较高的多尺度结构相似性分数和竞争性的无监督内在分数。
May, 2018
提出了一种名为 GenKIE 的新型生成式端到端模型,利用多模态编码器嵌入视觉、版面布局和文本特征,并利用解码器生成所需的输出,从而解决了来自扫描文档的关键信息抽取任务。实验证明 GenKIE 能够有效泛化到不同类型的文档,并在 OCR 错误方面表现出鲁棒性,因此在实际场景中具有广泛的应用前景。
Oct, 2023
本文介绍了一种基于门控神经网络的多模式学习新模型,称为 Gated Multimodal Unit (GMU) 模型,该模型用于在神经网络结构的内部单元中学习如何将来自不同模式的数据进行组合,并可用于电影类型分类中,通过使用剧情和电影海报的信息,模型在多标签情况下显著提高了单模式方法的性能,并优于其他的融合策略,同时提供了一个新的多模式数据集 MM-IMDb 用于电影类型分类的研究.
Feb, 2017
利用多模式图神经网络(MM-GNN)作为一种视觉问答(VQA)方法,通过将图像表示为由三个子图组成的图形,利用场景文本中的各种信息来提高节点特征,从而显著提高需要阅读场景文本的两项 VQA 任务的性能。
Mar, 2020
本论文提出了一种新型的基于图的多模态融合编码器,用于多模态神经机器翻译(NMT)中利用不同模态语义单元之间的细粒度语义对应关系,以优化多模态表示学习,并在 Multi30K 数据集上验证了模型的卓越性能。
Jul, 2020
本文提出一种新的多模式媒体伪造问题,即检测和定位多模式媒体操纵(DGM^4),构建第一个数据集,并提出了一种新的 HierArchical 多模式操作推理变压器(HAMMER)方法来捕捉不同模态之间的细粒度交互以及在不同的深度上检测和定位操纵。
Apr, 2023
本研究提出一种动态内存生成对抗网络(DM-GAN),用于解决现有文字生成图片方法在生成高质量图像过程中存在的问题。DM-GAN 能够更准确地从文本描述生成图像,其中一个动态内存模块被引入以完善模糊的图像内容,并通过一个内存写入门来选择重要的文本关键信息。实验结果表明,DM-GAN 模型在 Caltech-UCSD 鸟类 200 数据集和 Microsoft COCO 数据集上的性能超越了现有方法。
Apr, 2019
使用交叉模态对比生成对抗网络(XMC-GAN)进行文本到图像的综合,通过使用多个对比损失,注意力自我调节生成器和对比鉴别器,以最大化图像和文本之间的相互信息,改善了图像合成的质量,并在 MS-COCO、Localized Narratives 和 Open Images 上实现了最先进的 FID 评分.
Jan, 2021