多模态方面情感分析的视觉语言预训练

ACLApr, 2022

多模态方面情感分析的视觉语言预训练

Vision-Language Pre-Training for Multimodal Aspect-Based Sentiment Analysis

Yan Ling, Jianfei Yu, Rui Xia

TL;DR本文提出了一种面向多模态方面的情感分析的 Vision-Language 预训练框架（VLPMABSA），使用更加统一的多模态编码器 - 解码器体系结构来应对上一个视觉和文本模型分开预训练、或是总体预训练任务不够细致的问题，同时还设计了三种特定于该任务的语言、视觉和多模态预训练任务，并通过实验证明了本文方法在三个 MABSA 子任务上优于当前最先进方法的效果，且有助于情感、方面和跨模态的细粒度对齐。

Abstract

As an important task in sentiment analysis, Multimodal Aspect-Based Sentiment Analysis (MABSA) has attracted increasing attention in recent years. However, previous approaches either (i) use separately pre-trained visual and textual models, which ignore the crossmodal alignment or (ii) use vision-language models pre-trained with general pre-training tasks, w

multimodal aspect-based sentiment analysis vision-language pre-training encoder-decoder architecture fine-grained aspects alignment across modalities

发现论文，激发创造

通过流水线预测和基于翻译的对齐，增强多模态情感分析

多模态基于方面的情感分析 (MABSA) 研究了一个管道框架，其中首先通过 MATE 多模态方面术语抽取识别方面，然后将这些方面与图像补丁对齐用于情感分类 (MASC)，并且该方法在 Twitter-15 和 Twitter-17 数据集上取得了最先进的性能表现。

May, 2024

AoM: 多模态基于方面的情感分析中检测面向方面的信息

本研究提出了一种面向方面的方法（AoM），旨在检测与方面相关的语义和情感信息，并使用图卷积网络模拟视觉文本和文本之间的交互，明确地引入了情感嵌入，以准确地聚合情感信息。

May, 2023

多模机器翻译的视觉语言预训练调查

通过调查文献并从多模机器翻译的角度审视语言和视觉预训练的通用架构和预训练目标以及数据集，探索大型预训练模型在多模机器翻译任务中的应用。

Jun, 2023

多模态基于能量的方面情感分析新模型机制

多模态情感分析研究中，提出了一种称为 DQPSA 的新框架，其包含了 Prompt 作为 Dual Query（PDQ）模块和基于能量的 Pairwise Expert（EPE）模块，通过提取 Prompt 感知的视觉信息、加强视觉信息与分析目标之间的相关性以及模型边界配对，实现了在三个广泛使用的基准测试中超过以往方法并达到了最新的最佳性能。

Dec, 2023

跨语言视觉预训练用于多模式机器翻译

本文结合视觉和语言的跨语言预训练方法，使用三重并行视觉和语言语料库进行预训练，并说明所学习的基于视觉的跨语言表示对于多模式机器翻译的性能具有领先优势。

Jan, 2021

基于序列跨模态语义图的方面情感分类

本文提出了一种新的框架 SeqCSG，其中包括构建顺序跨模态语义图和编码器 - 解码器模型方法，用于有效利用跨模态语义图进行多模态方面的情感分类，实验结果表明，我们的方法优于现有方法并在两个标准数据集中实现了最先进水平。

Aug, 2022

视觉 - 语言预训练模型综述

本文综述了视觉 - 语言预训练模型在多模态学习上的进展，介绍了编码图像、文本信息的方法，分析了模型中处理文本与图像交互的主流架构以及已有的预训练任务和下游任务，并提出了未来的研究方向。

Feb, 2022

针对少样本方面情感分析的指令调整

本文提出了一个统一的框架来解决基于方面的情感分析（ABSA）及其相关子任务，通过在多任务学习模式下使用 T5 模型，通过教学提示进行 fine-tuning，并在多个基准数据集上实现了表现提升（F1 绝对值增加了 6.75），特别是在少样本情况下。

Oct, 2022

多模视觉监督对语言有益吗？

本文探讨和研究使用视觉监督学习的语言表示相对于常规语言表示对自然语言理解和常识推理基准测试的优劣，并根据多个图文模型和视频文本模型的实验结果发现，常规语言表示在多数任务中表现更好，揭示了视觉 - 语言模型当前的缺陷。

Feb, 2023

多模态预训练揭示：视觉和语言 BERT 的元分析和统一框架

本文探讨了计算机视觉和自然语言处理中预训练方法的标准方法学习经验，分别采用单流和双流编码器进行归纳分析。我们就五种视觉与语言 BERT 的差异进行经验研究，揭示出预训练数据和超参数是这些异常壮观的模型之间不同的原因，同时将两类网络统一在同一理论框架之下，指出 embedding layer 在这些模型中具有至关重要的作用。

Nov, 2020