为预训练语言模型整合非语言线索而文本化多模态信息

Mar, 2023

为预训练语言模型整合非语言线索而文本化多模态信息

TextMI: Textualize Multimodal Information for Integrating Non-verbal Cues in Pre-trained Language Models

Md Kamrul Hasan, Md Saiful Islam, Sangwu Lee, Wasifur Rahman, Iftekhar Naim...

TL;DR本文研究了如何将非语言性特征（例如视觉和听觉）转化为对应的文本描述，并将其与口头文本结合，从而将多模态信息整合到基于文本的预训练大语言模型中。我们称此方法为 TextMI，并在情感、幽默和讽刺检测等多个下游任务中进行了 fine-tune，取得了令人满意的性能，因此提出将 TextMI 作为低资源环境下多模态行为分析任务的通用、有竞争力的基准。

Abstract

pre-trained large language models have recently achieved ground-breaking performance in a wide variety of language understanding tasks. However, the same model can not be applied to multimodal behavior understanding tas

pre-trained large language models multimodal behavior understanding tasks acoustic and visual information bert model textmi

发现论文，激发创造

基于大规模语言模型的可解释的多模态情感分析

本研究提出了一种新方法，将非语言模态转化为文本描述，并使用大规模语言模型进行情感预测，从而提高情感分析的可解释性。在两个情感分析任务上的实验结果表明，该方法在维持或甚至提高了情感分析的效率的同时，使解释更为直接。

May, 2023

语言作为媒介：通过仅文本进行多模态视频分类

通过利用大型语言模型（如 GPT-3.5 或 Llama2）的广泛知识，结合 BLIP-2、Whisper 和 ImageBind 获取的视觉和听觉多模态文本描述，我们提出了一种新的模型不可知方法，用于生成捕捉多模态视频信息的详细文本描述。我们的评估结果表明，这种基于文本描述的方法在视频理解任务中取得了成功，为多模态分类提供了一个有前景的新研究方向。

Sep, 2023

从视觉和声音模态获取无文本情感的可扩展多模态情感分类

本文介绍了一种多模态融合模型，该模型专门使用高级视频和音频特征来分析口语句子的情感。该模型在 CMUMOSEI 数据集上进行了训练和测试，并获得了验证集上的 F1 得分 0.8049 和挑战测试集上的 F1 得分 0.6325。

Jul, 2018

大型语言模型与以文本为中心的多模态情感分析：调查

与传统情感分析相比，多模态情感分析需要同时考虑来自多模态源的情感信号，它更符合人类在现实场景中处理情感的方式。本文综述了近期文本为中心的多模态情感分析任务中的研究，审视了大型语言模型在文本为中心的多模态情感分析中的潜力、方法、优势和局限性，总结了基于大型语言模型的多模态情感分析技术的应用场景，并探讨了未来多模态情感分析的挑战和潜在研究方向。

Jun, 2024

文本的双模态：视觉和文本生成预训练

对于像素级语言模型，本论文介绍了一种新颖的预训练框架，通过在超过 4 亿个文档渲染的 RGB 图像上预训练，采用双模态训练方案，结合视觉数据和文本数据，通过下一个块预测和分类头预测进行训练，并展示了将视觉和文本数据结合的潜力及有效性。

Apr, 2024

使用视觉、音频和文本特征进行多模态话语级情感分析

本文介绍了一种利用 LSTM 结合口语音频和文本信息对多媒体剪辑中的情感进行识别的多模态神经架构，其优于单模态基线，并在唤起任务中达到了 0.400 的相关性系数和在价值任务中达到了 0.353 的相关系数。

May, 2018

在大型预训练变换器中集成多模态信息

本文提出了一种名为 Multimodal Adaptation Gate (MAG) 的附加组件，该组件可以扩展 BERT 和 XLNet 的语言模态以接受面部表情和语音等多模态信息，在情感分析等任务上具有显著的性能优势。

Aug, 2019

从多模态输入中获取语言知识

利用 FLAVA 模型进行消融研究，独立变化文本和视觉输入量，发现多模态预训练既不损害模型的语言性能，也没有一致的帮助作用；然而，由于实验规模有限，这些结论还不完全确定，需要更好的架构和多模态训练技术来验证多模态输入对语言模型和人类数据效率差距的假设。

Feb, 2024

面向多任务多模态模型的视频生成视角

通过构建多任务模型、保留高保真度的视频本机时空分词器、以及可解释的词汇术语与视觉观察之间的映射，我们的研究证明了多模态潜在空间设计的可行性，并提出了一种优于行业标准编解码器的视频本机时空分词器，从而在视频合成方面实现了语言模型超越扩散模型的首次突破。进一步地，我们的可扩展视觉令牌表示法在生成、压缩和理解任务中都表现出明显的优势。这项研究的成果为未来在生成非文本数据、实现实时互动体验等方面提供了有趣的潜力。

May, 2024

多模态情感分析基准测试

本研究通过卷积神经网络从文本、视觉等多个角度提取特征，实现了情感分析和情绪识别，并取得了 10% 的性能提升。同时，我们还探讨了在多模态情感分析研究中经常被忽视的若干重要问题，如讲话者无关模型和模态重要性等，从而为今后的研究提出了新的基准，并展示了在执行此类任务时需要考虑的不同方面分析。

Jul, 2017