训练模型对视觉常识知识的学习

ACLMay, 2022

What do Models Learn From Training on More Than Text? Measuring Visual Commonsense Knowledge

Lovisa Hagström, Richard Johansson

TL;DR研究利用多模态模型来学习语言的局限性，提出了两个评估任务来衡量语言模型在视觉常识知识方面的表现。结果发现，基于视觉文本数据的多模态模型和单模态模型在视觉常识知识方面表现不显著不同。

Abstract

There are limitations in learning language from text alone. Therefore, recent focus has been on developing multimodal models. However, few benchmarks exist that can measure what language models learn about langua

multimodal models visual modality visual commonsense knowledge evaluation tasks language models

发现论文，激发创造

理解 ME？用于细粒度视觉常识的多模态评估

本文介绍了一种多模态评估 (ME) 管道，用于自动生成问题 - 答案对以测试模型对视觉场景、文本和相关知识的理解。最后，我们的深入分析和比较揭示了有趣的发现：(1) 语义低级信息可帮助高级信息的学习，但反之则不行；(2) 与文本相比，视觉信息通常被低估。

Nov, 2022

预训练的单模态和多模态模型中的视觉常识

本文研究了图像和语言的单模态和多模态模型对视觉显著属性的度量精度，使用 Visual Commonsense Tests 数据集验证了多模态模型在属性分布重构中优于单模态模型，但仍然存在报告偏差问题，适当增加模型大小并不能提高视觉常识的性能，表明关键在于数据。

May, 2022

从视觉到语言的知识迁移：如何实现和衡量？

探究使用视觉数据来补充大型语言模型知识的方法，并提出一种基于 memory colors 任务查询和模型训练数据过滤的方法，以用于测量模型的视觉知识传输能力，并介绍了一种涉及视觉想象步骤的模型架构，并发现我们的方法可以成功用于衡量模型的视觉知识传输能力，而我们的新型模型架构在单模态环境中利用多模态知识具有良好的结果。

Sep, 2021

通过多图像生成改善语言模型中的视觉常识

基于多模态知识的常识推理是根本，我们介绍了一种方法来增强大型语言模型的视觉常识能力，该方法通过生成多个图像并将其与模型的决策过程相融合来提供综合的图像和文本知识。这种方法在不仅在视觉常识上，还在传统自然语言处理基准上优于现有基线模型。

Jun, 2024

利用视觉知识在语言任务中：跨模态知识转移的中间预训练的实证研究

本研究探索了将视觉知识整合到语言模型中以填补现有文本信息中缺失的相关性和物体属性信息的空白。研究发现，视觉知识传递可以在低资源和完全监督设置下均有效提高预先训练的语言模型在需要视觉知识的下游任务中的性能。

Mar, 2022

知识增强的多模态学习调查

该研究调查了多模态学习中的视觉语言学习及其与知识图谱的结合，提出了一种基于知识图谱的视觉语言学习模型以解决一般性知识方面的问题。

Nov, 2022

定位与语义：语言如何促进视觉表征学习？

我们通过探测的方式比较了视觉 - 语言模型和仅视觉模型的视觉表征，在广泛的任务范畴内评估学习表征的质量，发现视觉 - 语言模型更适合标签预测任务，而仅视觉模型更适合需要更多局部信息的密集预测任务，同时指出语言有利于视觉模型更好地学习语义，但不利于定位。

Dec, 2022

利用知识注入学习提高多模态营销中的上下文一致性

通过将常识知识图与大型视觉语言模型结合，改进了多模态营销活动的效果预测，并实现了对可能具有说服力的多模态活动的早期检测以及对营销理论的评估和增强。

Feb, 2024

从多模态输入中获取语言知识

利用 FLAVA 模型进行消融研究，独立变化文本和视觉输入量，发现多模态预训练既不损害模型的语言性能，也没有一致的帮助作用；然而，由于实验规模有限，这些结论还不完全确定，需要更好的架构和多模态训练技术来验证多模态输入对语言模型和人类数据效率差距的假设。

Feb, 2024

多模式检索增强生成式常识推理

提出了一种新颖的多模式检索 (MORE) 增强框架，利用文本和图像来增强语言模型的常识能力。在 Common-Gen 任务上的大量实验表明，MORE 基于单一和多模态的预训练模型具有较高的效果。

Feb, 2024