- SUGARCREPE++ 数据集:视觉语言模型对语义和词汇变化的敏感性
该论文介绍了 SUGARCREPE++ 数据集,用于分析大型语言模型和视觉语言模型对词汇和语义变化的敏感性,并评估了它们在区分词汇和语义变化方面的困难,特别是在对象属性和空间关系方面。虽然使用更大的预训练数据集、模型规模和多个预训练目标的模 - HaLo-NeRF:学习几何引导的语义,探索无约束照片集合
本文介绍了一种将大规模地标场景的神经表示与描述场景中的语义区域的文本相连接的本地化系统,通过利用最先进的视觉 - 语言模型以及适用于理解地标场景语义的改进,提供语义导航和细粒度理解的语义接口。
- 通过自洽解释改进的视觉对准
使用视觉与语言模型、视觉解释方法和近义词进行微调,目标是提高定位能力和对象高亮质量。在多个数据集中,通过该方法相较于基线方法和之前的工作获得了显著的改进。
- 大规模视觉语言模型学习用于高效和高性能的部分相关视频检索的超级图像
提出一种高效和高性能的部分相关视频检索方法,通过使用超级图像、视觉编码和细调方法,实现了在 ActivityNet Captions 和 TVR 上的最佳性能。
- 从视觉语言模型中去除不安全内容以用于文本到图像检索和生成
通过从大型语言模型中提取训练数据并进行微调,我们介绍了一种使视觉与语言模型对不适宜的内容不敏感的方法,并展示了它在文本 - 图像检索和生成中的有效性。
- 视听语言模型中的声音象征:Kiki 还是 Bouba?
使用计算工具,我们研究了声音象征的存在并且证明了视觉与语言之间存在交叉模态关联,其表现与著名的 kiki-bouba 效应相似。
- Babel-ImageNet:大规模多语言视觉语言表示的评估
使用 Babel-ImageNet 建立大规模多语言图像描述数据集,通过在 0-shot 图像分类任务上的表现大幅验证了多语言 VL 模型的性能差异并证明了其在图像 - 文本检索上的可行性。
- 模态转移中的杠杆点:比较仅语言和多模态词表示
本研究比较了来自不同模型的单词嵌入,在 46 个语义参数中识别出最受视觉语境影响的单词,并发现视觉模态效应与涉及具体性的指示语义属性最相关,但也适用于多个特定的语义类别,以及与情感相关的联想语言表达的倾向属性。
- CVPR未经筛选的图像 - 文本数据集:揭示人口特征偏见
我们研究了在视觉和语言模型训练中使用大型未筛选数据集的不公平表现,以及如何应对这个问题,研究发现社会偏见在图像生成、图像描述和图像文本嵌入等视觉语言任务中都是一个持续而普遍的问题。
- 安卓能否笑对电子羊? - 源自《纽约客》漫画比赛的幽默「理解」基准
本文试图让 AI 模型 “展现出理解” 的《纽约客字幕比赛》中的多模态幽默,同时研究采用视觉与语言、或只采用语言作为输入的模型,并公开了包括图片的注释、实体、场景特殊之处和笑话解释的数据集和语料库。
- PreSTU:场景文本理解的预训练
本文介绍了一种新的预训练方法 PreSTU,利用 OCR 技术将场景中的文本信息识别并与图像其余内容连接起来,经实验证明在视觉问答和图像字幕等任务中取得了良好的效果。
- 学得越多未必越好:视觉与语言任务中的知识可迁移性
研究在多模态任务中知识转移性,以探讨是否将不同任务的数据集合并来训练视觉 - 语言模型一定能提高它们的整体表现。通过对 12 项视觉 - 语言任务进行数百次交叉实验分析,发现不是所有的知识都能有益于相关任务,在同一组任务中却容易相互改进,而 - WinoGAViL:用于挑战视觉语言模型的游戏化联想基准测试
本研究介绍了一种名为 WinoGAViL 的游戏,用于评估视觉和语言的关联能力,该游戏要求玩家通过提示之间的视觉联系想象出词和短语。研究人员使用游戏收集了 3.5K 个实例,并发现它们对人类直觉有很强的刺激,但对最先进的 AI 模型的表现却 - 重新思考视觉问答中的评估实践:针对分布外泛化的案例研究
研究大规模多模态数据上预训练的 Vision-and-Language (V&L) 模型在视觉问答 (VQA) 任务中存在代表训练数据的样本分布偏移所造成的 OOD 性能问题,而模型学习的是解决基准测试而不是高层次的技能。本文通过考虑在不同 - ACL视觉空间推理
本研究提出 Visual Spatial Reasoning(VSR)数据集,这是包含超过 10k 已标注的英文自然文本图像对和 66 种空间关系的数据集,研究表明当前视觉语言模型只能达到约 70%的准确率,无法识别有关物体朝向的关系。
- ACL从上下文描述中检索图像
本文介绍了新的多模态挑战 ImageCoDe,探讨当前视觉 - 语言模型集成上下文、包括感知和时间信息的能力。通过从一批候选图像中选择正确的图像作为回应上下文描述,验证了多种现代模型的表现,并发现相对于人类表现差距巨大。文章介绍了新的模型变 - ACL面向视觉及语言推理的语义分布式鲁棒优化
本文提出一种名为 SDRO 的模型无关方法,利用分布式鲁棒优化设置中的一组语言转换,并使用集成技术在推断期间利用这些转换来提高通用性和稳健性。实验表明,该方法可以对视觉和语言模型进行增强,从而在图像(NLVR2)和视频(VIOLIN)上获得 - MMMARMOT:一个用于构建视觉 - 语言任务的多模态表征的深度学习框架
本篇论文提出一种名为 MARMOT 的多模态视觉语言框架,该框架依靠模态转换构造了观测缺少图像或文本的表征,并在具有选举事件的推文多标签分类方面,在 19 个分类中优于仅使用文本的分类器。
- EMNLP视觉语言预训练是否提高了词汇连接能力?
本文研究比较基于视觉和语言的预训练模型和仅基于文本的预训练模型的语义表示,结果发现基于视觉和语言的模型在仅语言方面无法显著优于仅基于文本的模型,因此这种多模态预训练对于提高自然语言处理的效果仍需要进一步研究。
- CLIP 能为视觉语言任务带来多大的效益?
研究了在视觉与语言任务中使用大规模预训练模型 CLIP 作为视觉编码器以及其优势,通过在特定任务中微调和在预训练模型中与 V&L 相结合传递到下游任务,CLIP 显著优于现有的视觉编码器,并在多种视觉与语言任务中取得竞争或更好的结果,同时取