GMN: 实用文档信息提取的生成式多模型网络

ACLJul, 2022

GMN: 实用文档信息提取的生成式多模型网络

GMN: Generative Multi-modal Network for Practical Document Information Extraction

Haoyu Cao, Jiefeng Ma, Antai Guo, Yiqing Hu, Hao Liu...

TL;DR该论文提出了一种面向实际场景的多模态生成方法 GMN，利用空间编码器和模态感知掩模模块处理复杂文档的噪声 OCR 结果或可变布局，并避免了字符级注释，实验证明 GMN 在公共 DIE 数据集上取得了新的最佳性能，并且在现实场景中优于其他方法。

Abstract

document information extraction (DIE) has attracted increasing attention due to its various advanced applications in the real world. Although recent literature has already achieved competitive results, these approaches usually fail when dealing with complex documents with noisy

document information extraction generative multi-modal network ocr spatial encoder multi-modal generation

发现论文，激发创造

MEGAN: 多模态图像生成的混合专家生成对抗网络

我们提出一种混合专家 GAN （MEGAN）方法，它使用多个生成器网络进行集成学习，并通过门控网络在不同条件下选择适当的网络，以生成具有特定子集的模式的图像。我们证明各自利用数据的不同部分，达到较高的多尺度结构相似性分数和竞争性的无监督内在分数。

May, 2018

基于生成的融合机制的多模态追踪

通过使用生成模型的融合机制，本研究在多模态跟踪中展示了生成模型的潜力，并通过实验证明该方法取得了最新的性能记录。

Sep, 2023

GenKIE：鲁棒的生成多模态文档关键信息抽取

提出了一种名为 GenKIE 的新型生成式端到端模型，利用多模态编码器嵌入视觉、版面布局和文本特征，并利用解码器生成所需的输出，从而解决了来自扫描文档的关键信息抽取任务。实验证明 GenKIE 能够有效泛化到不同类型的文档，并在 OCR 错误方面表现出鲁棒性，因此在实际场景中具有广泛的应用前景。

Oct, 2023

基于多粒度信息融合的社交媒体多模态假新闻检测

文章介绍了一种用于检测假新闻的多粒度多模态融合网络模型，并将模型性能与现有方法进行了比较。

Apr, 2023

信息融合的门控多模单元

本文介绍了一种基于门控神经网络的多模式学习新模型，称为 Gated Multimodal Unit (GMU) 模型，该模型用于在神经网络结构的内部单元中学习如何将来自不同模式的数据进行组合，并可用于电影类型分类中，通过使用剧情和电影海报的信息，模型在多标签情况下显著提高了单模式方法的性能，并优于其他的融合策略，同时提供了一个新的多模式数据集 MM-IMDb 用于电影类型分类的研究.

Feb, 2017

多模态图神经网络用于视觉场景联合推理

利用多模式图神经网络（MM-GNN）作为一种视觉问答（VQA）方法，通过将图像表示为由三个子图组成的图形，利用场景文本中的各种信息来提高节点特征，从而显著提高需要阅读场景文本的两项 VQA 任务的性能。

Mar, 2020

一种基于图形的多模态融合编码器在神经机器翻译中的应用

本论文提出了一种新型的基于图的多模态融合编码器，用于多模态神经机器翻译（NMT）中利用不同模态语义单元之间的细粒度语义对应关系，以优化多模态表示学习，并在 Multi30K 数据集上验证了模型的卓越性能。

Jul, 2020

检测和定位多模态媒体篡改

本文提出一种新的多模式媒体伪造问题，即检测和定位多模式媒体操纵（DGM^4），构建第一个数据集，并提出了一种新的 HierArchical 多模式操作推理变压器（HAMMER）方法来捕捉不同模态之间的细粒度交互以及在不同的深度上检测和定位操纵。

Apr, 2023

DM-GAN: 动态记忆生成对抗网络用于文本到图像合成

本研究提出一种动态内存生成对抗网络（DM-GAN），用于解决现有文字生成图片方法在生成高质量图像过程中存在的问题。DM-GAN 能够更准确地从文本描述生成图像，其中一个动态内存模块被引入以完善模糊的图像内容，并通过一个内存写入门来选择重要的文本关键信息。实验结果表明，DM-GAN 模型在 Caltech-UCSD 鸟类 200 数据集和 Microsoft COCO 数据集上的性能超越了现有方法。

Apr, 2019

文本到图像生成的跨模态对比学习

使用交叉模态对比生成对抗网络（XMC-GAN）进行文本到图像的综合，通过使用多个对比损失，注意力自我调节生成器和对比鉴别器，以最大化图像和文本之间的相互信息，改善了图像合成的质量，并在 MS-COCO、Localized Narratives 和 Open Images 上实现了最先进的 FID 评分．

Jan, 2021