跨模态检索和综合的多模式关系抽取

ACLMay, 2023

跨模态检索和综合的多模式关系抽取

Multimodal Relation Extraction with Cross-Modal Retrieval and Synthesis

Xuming Hu, Zhijiang Guo, Zhiyang Teng, Irwin King, Philip S. Yu

TL;DR本研究提出了一种多模态关系抽取方法，通过检索对象、句子和整个图像的文本和视觉证据，综合考虑了同一和不同模态之间的信息，从而比现有的方法更准确地识别语义关系并显著提高了效果。

Abstract

multimodal relation extraction (MRE) is the task of identifying the semantic relationships between two entities based on the context of the sentence image pair. Existing retrieval-augmented approaches mainly focused on modeling the retrieved →

multimodal relation extraction semantic relationships textual knowledge visual evidence state-of-the-art models

发现论文，激发创造

多模态检索命名实体与关系提取

本文提出了 MoRe 框架，使用多模态检索方法，结合文本和图像信息进行命名实体识别和关系抽取，并使用 Mixture of Experts 模块以获得最终决策。在实验中，MoRe 模型达到了四个多模态实体识别数据集和一个多模态关系抽取数据集的最佳性能，证明了结合文本和视觉提示在这些任务中对提高性能具有实际意义。

Dec, 2022

基于前缀调整的双门控融合技术用于多模态关系抽取

本文提出了一种新的多模态关系提取框架，称为 DGF-PT，该框架旨在更好地捕捉文本、实体对和图像 / 对象之间的更深层次的相关性，以挖掘更有用的信息，并且通过引入对实体类型的限制，更好地过滤候选关系。

Jun, 2023

利用信息筛选进行多模态关系抽取！采用特征去噪和多模态主题建模技术

我们提出了一种新颖的框架，该框架同时实现了内部信息筛选和外部信息利用的想法，通过对图形信息瓶颈原则的引导进行结构细化，将视觉和文本场景图进一步融合成统一的跨模式图形 (CMG)，通过加入潜在多模态主题特征来丰富语境，在基准 MRE 数据集上，我们的系统显着优于当前最佳模型。

May, 2023

基于边缘增强图对齐网络与词对关系标记的联合多模态实体关系抽取

本研究提出一种新的联合多模态实体关系抽取任务方法，结合了多模态命名实体识别和多模态关系提取的相互作用，使用增强边缘对齐的图形对齐网络和词对关系标记来增强该任务，它能够发现实体 - 实体关系和对象 - 对象关系之间的关联性。

Nov, 2022

多模态关系抽取的变分多模态超图注意力网络

提出了一种用于多模态关系提取的变分多模态超图注意网络（VM-HAN），通过利用图像信息在文本中识别实体间的关系，构建了每个句子的多模态超图，并利用高斯分布实现了实体对之间的代表性多样性，从而在多模态关系提取任务中取得了最先进的性能。

Apr, 2024

学习双重检索模块用于半监督关系抽取

本文提出 DualRE，使用弱监督技术结合自我训练机制和多视图学习方法，在关系抽取任务中通过检索模块与原始关系预测模型的联合训练来提高模型的性能表现。实验结果表明，该方法有效地提高了模型的性能表现。

Feb, 2019

基于关系嵌入的指代表达式 grounding 表示学习

本文提出了一种 Cross-Modal Relationship Extractor (CMRE) 的方法，利用跨模式的注意力机制自适应地提取和关联表达式中与对象相关的空间和语义关系，并将提取的信息表示为语言导向的视觉关系图。同时，我们还提出了一种 Gated Graph Convolutional Network (GGCN)，通过融合不同模式的信息并在结构化的关系图中传播多模式信息来计算多模式语义上下文，并在三个通用基准数据集上证明了该方法的显著优于所有现有的最新方法。

Jun, 2019

重新审视跨模态检索

本文提出了一种交叉模态检索系统，利用图像和文本编码，实现了同时检索模态的功能，避免了需要为每个模态使用不同网络的缺点。在所使用的知识中，本文是第一篇采用单一网络和融合的图像 - 文本嵌入进行跨模态检索的工作。在 MS-COCO 和 Flickr30K 两个著名的多模态数据集上对该方法进行了评估。

Jul, 2018

关系提取的单模态和多模态表示训练

通过排除每种数据类型并独立评估文本和布局数据，我们研究了文本、布局和视觉信息的相对预测能力，证明了针对关系提取任务训练联合表示的有效性。我们的实验表明，双模态的文本和布局方法表现最佳，同时文本是最重要的单一预测因子，布局几何形状也具有高度预测能力。此外，我们强调在哪些情况下视觉信息可以增强性能。

Nov, 2022

关于图像对于视觉增强关系抽取作用的分析

本研究对视觉场景图的不准确信息对多模态关系提取的影响进行了分析，提出了一种基于 Transformer 的隐式精细多模态对齐的强基准方法，并通过实验表明了该方法的优越性。

Nov, 2022