本文提出了一种多模态学习的编码器-解码器模型,学习图像和文本的多模态联合嵌入空间和现代语言模型。使用LSTM进行句子编码,该模型在Flickr8K和Flickr30K数据集上表现出色。同时,该模型通过线性编码器捕捉到了空间算术中的多模态规律。
Nov, 2014
文章研究了在视觉 -语言 (VL) 任务中如何处理语言和视觉特征,提出了一些对于语言发挥更大作用的最佳实践,包括使用平均嵌入语言模型,进行多任务训练以及采用图形导向的视觉 -语言嵌入模型(GrOVLE)来整合语言特征。
Aug, 2019
本文利用包含超过10亿个图像备选文本对的嘈杂数据集,采用简单的双编码器体系结构通过对比损失,学习了图像和文本对的视觉和语言表示,显示出我们语料库的规模可以弥补其噪音,即使使用这样的简单学习方案也能实现最先进的表现,使跨模式搜索变得更加容易。
Feb, 2021
本篇论文提出了一种探测任务的方法,通过训练分类器来比较各种最新的文本-图像语义嵌入,揭示了语义嵌入中存在的问题并提出了问题解决方案。实验结果表明,视觉-语义嵌入的识别准确率比单媒体嵌入提高了12%以上。
这篇论文从时间的角度对视觉语言智能进行了全面的调研, 总结了三个时期的发展, 包括特定任务方法, 视觉-语言预训练方法和通过大规模弱标签数据增强的更大模型, 并讨论了未来的发展趋势.
Mar, 2022
本文主要介绍了预训练模型在计算机视觉和自然语言处理中所取得的巨大成功,着重介绍了视觉语言预训练模型(VLPM)的重要进展及其结构、预训练和微调策略,并提出了未来三个方向的研究建议。
Apr, 2022
该研究探讨了文本型的语言模型对外部世界的表示程度。研究发现,通过单一的线性变换,可以将视觉模型的特征表示连续地传递给被固定的文本型语言模型,从而取得了与同时调整图像和文本的模型相同的指标。研究表明,语言模型的概念表示与以图像为基础的模型在结构上相似,甚至能够转移视觉信息。
Sep, 2022
将视觉语言模型(VLMs)与大型语言模型(LLMs)相结合的迭代优化与视觉反馈方法,显著提高了图像分类性能,并产生了可解释和稳健的特征描述符。
Nov, 2023
成功进行多模态自回归建模,并首次提出了视觉词概念,将视觉特征映射到LLMs词汇的概率分布,为视觉建模提供了监督信息。通过对5个VQA任务和4个基准工具包的实验结果和消融研究的验证,证明了我们提出方法的强大性能。
Mar, 2024
综述了大语言模型与视觉语言模型的最新进展,分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性,并提出未来研究的潜在方向。
Feb, 2024