扩展到视觉领域的大型语言模型(LLMs)的应用将显著影响我们与技术的关系,但需要解决一些可靠性挑战。本文介绍了视觉语言模型(VLM)以及其工作原理、训练方法和评估方法,并讨论了将其扩展到视频领域的问题。
May, 2024
综述了大语言模型与视觉语言模型的最新进展,分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性,并提出未来研究的潜在方向。
Feb, 2024
本篇研究综述了当下 Vision-and-Language 领域内的预训练模型,并归纳总结了相关预训练技术、训练集以及下游任务。同时,文章还讨论了未来研究的多个方向。
Jul, 2022
这篇论文从时间的角度对视觉语言智能进行了全面的调研,总结了三个时期的发展,包括特定任务方法,视觉 - 语言预训练方法和通过大规模弱标签数据增强的更大模型,并讨论了未来的发展趋势.
Mar, 2022
本文综述了视觉 - 语言预训练模型在多模态学习上的进展,介绍了编码图像、文本信息的方法,分析了模型中处理文本与图像交互的主流架构以及已有的预训练任务和下游任务,并提出了未来的研究方向。
Feb, 2022
本研究提出了一种热门研究课题,即如何对多模态视觉 - 语言模型进行选择和预测,并利用新的基准测试 LOVM 来进行考核评估。
Jun, 2023
通过创建一个调查问卷,我们确定图说偏好,并通过过滤由盲人拍摄的图像构建一个以文化为中心的评估基准,评估了几种大型视觉语言模型在文化多样化环境中作为视觉助理的可靠性,结果表明最先进的模型仍面临幻觉和与人类判断不一致的自动评估指标的挑战,我们公开共享了调查问卷、数据、代码和模型输出。
Jul, 2024
使用预训练的视觉语言模型作为无样本奖励模型以指定任务,通过单个句子文本提示训练 MuJoCo 仿真人完成复杂任务,表明未来的视觉语言模型将在广泛的强化学习应用中成为更加有用的奖励模型。
Oct, 2023
本文主要介绍了预训练模型在计算机视觉和自然语言处理中所取得的巨大成功,着重介绍了视觉语言预训练模型 (VLPM) 的重要进展及其结构、预训练和微调策略,并提出了未来三个方向的研究建议。
Apr, 2022
通过多模态的视觉 - 语言基础模型作为一种视角,本文提出了一种逻辑规范语言 Con_spec,用于在这些模型的高级人类可理解概念描述的基础上编写规范并进行形式验证,通过采用 VLM 实现自然语言性质的编码和高效检查,以 ResNet 为基础的分类器在 RIVAL-10 数据集上进行的实验验证了我们的技术。
Mar, 2024