分析有限数据中语言与视觉在学习中的作用

Feb, 2024

分析有限数据中语言与视觉在学习中的作用

Analyzing the Roles of Language and Vision in Learning from Limited Data

Allison Chen, Ilia Sucholutsky, Olga Russakovsky, Thomas L. Griffiths

TL;DR语言对理解视觉世界有何帮助？实际观察世界还是通过文字描述更重要？通过分析具有语言和视觉能力的人工智能模型，研究人员发现语言提供了先前的知识和推理能力，有助于从有限数据中学习新任务。

Abstract

Does language help make sense of the visual world? How important is it to actually see the world rather than having it described with words? These basic questions about the nature of →

language visual world intelligence vision-language models cognitive architecture

发现论文，激发创造

视觉 - 语言智能：任务、表示学习与大模型

这篇论文从时间的角度对视觉语言智能进行了全面的调研，总结了三个时期的发展，包括特定任务方法，视觉 - 语言预训练方法和通过大规模弱标签数据增强的更大模型，并讨论了未来的发展趋势.

Mar, 2022

视觉是否加速神经语言学习者的分层泛化？

本研究探讨了神经语言模型（LM）与人类学习者的效率差距，提出了学习者除文本外的其他模式，即视觉模式的可行性，并通过两个实验表明视觉模式在简化的人工场景下加速了 LMs 的合适的语法泛化，但在嘈杂的现实场景中，LMs 很难做到。这表明视觉有助于语言习得，但学习者需要有额外的先验知识来使用原始图像进行高效的语言习得。

Feb, 2023

定位与语义：语言如何促进视觉表征学习？

我们通过探测的方式比较了视觉 - 语言模型和仅视觉模型的视觉表征，在广泛的任务范畴内评估学习表征的质量，发现视觉 - 语言模型更适合标签预测任务，而仅视觉模型更适合需要更多局部信息的密集预测任务，同时指出语言有利于视觉模型更好地学习语义，但不利于定位。

Dec, 2022

视觉与语言研究中的挑战与前景

本文对语言图像理解中人工智能评估的进展和局限进行了综述，并提出了解决方案。

Apr, 2019

图像能否代表千言万语？深入探究视觉语言模型的空间推理

大型语言模型和视觉 - 语言模型在广泛的任务和领域表现出了显著的优异性能，但空间理解和推理（人类认知的基本组成部分）仍然未得到充分利用。通过开发多方面的空间推理基准，如关系理解、导航和计数，我们对具有竞争力的语言模型和视觉 - 语言模型进行全面评估。我们的发现揭示了几个在文献中被忽视的反常见观点：（1）空间推理带来了重大挑战，竞争模型可能不如随机猜测；（2）尽管有额外的视觉输入，视觉 - 语言模型通常表现不如纯语言模型；（3）当文本和视觉信息都可用时，如果提供足够的文本线索，多模态语言模型对视觉信息的依赖程度降低。此外，我们证明了利用视觉和文本之间的冗余可以显著提高模型性能。我们希望我们的研究能够为改进空间智能并进一步缩小与人类智能之间的差距的多模态模型的发展提供启示。

Jun, 2024

视觉语言建模简介

扩展到视觉领域的大型语言模型（LLMs）的应用将显著影响我们与技术的关系，但需要解决一些可靠性挑战。本文介绍了视觉语言模型（VLM）以及其工作原理、训练方法和评估方法，并讨论了将其扩展到视频领域的问题。

May, 2024

视频语言理解：模型架构、模型训练和数据视角的综述

本文综述了视频 - 语言理解系统的关键任务、相关挑战以及模型架构、模型训练和数据观点等方面的方法，并进行了方法间的性能比较，提出了未来研究的有前景的方向。

Jun, 2024

探索视觉 - 语言模型的边界：当前方法和未来方向的综述

综述了大语言模型与视觉语言模型的最新进展，分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性，并提出未来研究的潜在方向。

Feb, 2024

语言空间中的图像：探索大语言模型在视觉和语言任务中的适用性

本篇文章研究了如何通过联合对话模型和语言模型使其能够有效地处理视觉信息，解决了在有限样本时视觉 - 语言任务的问题，使输出更易于解释。

May, 2023

视觉任务的视觉语言模型综述

本文系统回顾了基于语言的视觉模型在各种视觉识别任务中的应用，并总结了广泛采用的网络结构、预训练目标和下游任务，以及预训练和评估中广泛采用的数据集，并回顾和分类现有的预训练方法、传输学习方法和知识蒸馏方法。

Apr, 2023