文章研究了在视觉 -语言 (VL) 任务中如何处理语言和视觉特征,提出了一些对于语言发挥更大作用的最佳实践,包括使用平均嵌入语言模型,进行多任务训练以及采用图形导向的视觉 -语言嵌入模型(GrOVLE)来整合语言特征。
Aug, 2019
使用图像和标题的联合信息进行预训练可提高图像表征能力,该方法通过 image-conditioned masked language modeling(ICMLM)任务来实现,训练出的表征能够成功应用于多种目标任务。
Aug, 2020
这篇论文从时间的角度对视觉语言智能进行了全面的调研, 总结了三个时期的发展, 包括特定任务方法, 视觉-语言预训练方法和通过大规模弱标签数据增强的更大模型, 并讨论了未来的发展趋势.
Mar, 2022
利用对比损失进行的自监督视觉-语言预训练虽然有效,但由于双流体系结构仅在全局层面上对齐图像和文本表示法,因此忽略了细粒度对齐。本文提出了一种单通道体系结构,使用两个新任务在多个层次(即全局、细粒度图块-令牌和概念/语义层次)上对齐图像和语言,实现了更细粒度的对齐和更强大的数据效率,这两个新任务是对称跨模态重建和伪标签关键字预测。
该研究探讨了文本型的语言模型对外部世界的表示程度。研究发现,通过单一的线性变换,可以将视觉模型的特征表示连续地传递给被固定的文本型语言模型,从而取得了与同时调整图像和文本的模型相同的指标。研究表明,语言模型的概念表示与以图像为基础的模型在结构上相似,甚至能够转移视觉信息。
Sep, 2022
本文探讨了如何从文本数据中学习计算机视觉领域所需的高层次技能,并将其转移到视觉任务中,同时提出探究对比模型嵌入空间中不同模态的系统差异,进一步理解和缓解这种关注的策略。实践证明,我们使用仅文本训练数据在图像标注、视觉蕴含、视觉问题回答和视觉新闻等四个代表性任务上建立的模型,性能表现接近仅使用图像训练数据建立的模型,尤其是针对图像标注和视觉蕴含任务的文本训练数据,有望超过9个百分点的提升。同时,我们还展示了多种样式的图像标注模型,这些模型使用的不是图像数据和人工策划的语言数据,而是来自于图书、网络或语言模型可用的文本数据。
Nov, 2022
本文提出了一种新方法来将视觉信息作为协助信号用于NLP任务,使用Transformer编码器和卷积神经网络来对文本和图像进行编码,通过注意力层将两种模态的表征进行融合,实验结果表明,该方法在不同的任务和语言中都具有很好的效果。
Jan, 2023
我们展示了多模态大型语言模型(MLLMs)通过提高数据质量来增强视觉语言表示学习,使用MLLMs扩展每个图像的多个标题,通过“文本切割”方法来防止MLLMs引入的偏见和内在标题风格,并在图像文本检索中,在微调和零样本设置下分别获得5.6〜35.0%和16.8〜46.1%的R@1提升,并且我们的零样本结果可与目标数据集上的微调相媲美,鼓励更多对MLLMs的多方面使用的探索。
Nov, 2023
该论文介绍了VLAP(pretrained vision models和large language models之间的视觉理解的桥梁),通过一种新颖的方法,将预训练的视觉模型的嵌入空间转化为大规模语言模型的词嵌入空间,从而有效且通用地实现视觉和语言的理解。
Apr, 2024
本研究针对现有视觉语言模型面临的生成与判别训练各自的局限性,提出了一种统一的方法,整合了两种训练模式的优势。通过引入结构诱导训练策略和动态时间规整框架,我们的方法显著提升了多模态大语言模型对全局语义和细粒度语义的捕捉能力,实验证明该方法在多项生成任务上实现了最新的成果,尤其在认知与区分能力要求较高的任务中表现优异。
Nov, 2024