PV2TEA：将视觉模态补充到文本信息提取中

ACLJun, 2023

PV2TEA：将视觉模态补充到文本信息提取中

PV2TEA: Patching Visual Modality to Textual-Established Information Extraction

Hejie Cui, Rongmei Lin, Nasser Zalmout, Chenwei Zhang, Jingbo Shang...

TL;DR该研究旨在将视觉模态与以文本为基础的属性信息提取器相结合，以提高属性值提取的准确性和性能，在此基础上，该文提出了基于编码器 - 解码器结构的 PV2TEA 模型，通过三种偏差降低方案实现跨模态融合，并实验证明相比于单一模态模型，其性能提高了 20.97%.

Abstract

information extraction, e.g., attribute value extraction, has been extensively studied and formulated based only on text. However, many attributes can benefit from image-based extraction, like color, shape, patte

information extraction image-based extraction visual modality cross-modality integration encoder-decoder architecture

发现论文，激发创造

多模态属性提取

本文提出了一种多模态属性提取任务，旨在从不同类型的非结构化数据中提取实体的属性。通过使用 7 百万个不同产品项目的混合媒体数据集，我们展示了利用弱监督学习方法进行属性提取的有效性，并分析了各种信息模态相对于该任务的作用。

Nov, 2017

以精细化理解带来更丰富的视野：基于隐含模态对文本人物检索的对齐

本研究提出了一种隐式视觉 - 文本框架，通过多级和双向遮罩建模方法实现跨模态匹配，提高了人物的文本检索效果。

Aug, 2022

跨模态属性插入，评估视觉语言学习的鲁棒性

本文提出了一种跨模态属性插入的策略，该策略将图像中的视觉属性插入到文本数据中，用于深度视觉和语言模型的鲁棒性评估，并发现相对于纯文本数据，跨模态属性插入提高了深度视觉和语言模型的数据增广质量。

Jun, 2023

使用指针增强多模态 Transformer 进行迭代式答案预测的 TextVQA

本研究提出了一种基于多模态 Transformer 架构的新型 TextVQA 模型，采用自我注意力机制进行不同模态的融合，并通过动态指针网络进行迭代式答案解码，相比于现有方法大幅度提高了 TextVQA 任务的性能。

Nov, 2019

关于图像对于视觉增强关系抽取作用的分析

本研究对视觉场景图的不准确信息对多模态关系提取的影响进行了分析，提出了一种基于 Transformer 的隐式精细多模态对齐的强基准方法，并通过实验表明了该方法的优越性。

Nov, 2022

电子商务的多模态属性提取

本文介绍了一种基于多模态架构和深度模型的方法，从文本和图像中提取商品属性，旨在改善在线市场的用户体验。在实验中，该方法表现出良好的效果，并成功应用于 Rakuten-Ichiba 等在线市场。

Mar, 2022

电商产品的多模态联合属性预测和价值提取

该研究提出了一种多模式方法，结合了产品图片和文本描述信息，以联合预测产品属性和提取属性值，实现了完备和准确的产品属性值数据集，并在实验中证明了显式建模属性和值之间关系以及选择性地利用产品信息可以提高任务表现。

Sep, 2020

文本到图像生成中的对象 - 属性绑定：评估与控制

通过提出聚焦交叉注意力（FCA）和句子中的句法约束，本研究解决了当前扩散模型在图像中正确绑定文本提及的属性到正确对象上的困难，并在多个数据集上展示了图像与文本之间的对齐领域的重大改进。

Apr, 2024

标签对齐前的多模式标签集成视频文本检索

本文提出了一种用于视频 - 文本检索的 TABLE（标记前对齐）网络，该网络通过标记将多模态信息显式地集成在一起，并在视觉编码器、标记编码器、文本编码器和带有标记引导的跨模态编码器的联合编码下，使用预训练的多模态专家从多模态中提取信息。实验表明，TABLE 模型在 MSR-VTT、MSVD、LSMDC 和 DiDeMo 等多个视频 - 文本检索基准中表现出了最先进的性能。

Jan, 2023

重新审视跨模态检索

本文提出了一种交叉模态检索系统，利用图像和文本编码，实现了同时检索模态的功能，避免了需要为每个模态使用不同网络的缺点。在所使用的知识中，本文是第一篇采用单一网络和融合的图像 - 文本嵌入进行跨模态检索的工作。在 MS-COCO 和 Flickr30K 两个著名的多模态数据集上对该方法进行了评估。

Jul, 2018