通过语言引导采样学习视觉表征
本篇论文研究视觉 - 语言模型在理解图像中物体所在区域和组合视觉相关部分方面的表现,提出一种最小的修改方案,获得了先进的无监督分割结果和对冗余相关性的鲁棒性。
Oct, 2022
我们通过探测的方式比较了视觉 - 语言模型和仅视觉模型的视觉表征,在广泛的任务范畴内评估学习表征的质量,发现视觉 - 语言模型更适合标签预测任务,而仅视觉模型更适合需要更多局部信息的密集预测任务,同时指出语言有利于视觉模型更好地学习语义,但不利于定位。
Dec, 2022
该论文提出了一个从多个视角捕捉的无标注视频演示中学习视觉表示的框架,优化了最近提出的自监督学习算法,应用对比学习来增强与任务相关的信息和抑制特征嵌入中的无关信息,验证了所提出的方法在模拟几种机器人任务,包括 pick and place 任务中的应用,评估了学习表示的三个指标:视点对齐,阶段分类和强化学习,在所有情况下,结果都表明与现有方法相比,该方法水平更高,而且训练轮数更少。
Jan, 2022
本文通过设计一种探针模型,研究了上下文语言模型对应的具体名词在视觉表示方面的关联程度,并发现语言表示本身就具有检索正确对象类别的强信号以及检索图像特定实例的效果,而文本上下文在该过程中发挥了重要作用,但比起人类,具有图像为基础的语言模型在实例检索方面表现稍逊。我们希望这些结果能够启发未来的研究,进一步地理解和改善语言模型的视觉能力。
May, 2020
本研究探讨类别学习和奖励学习实验中的泛化技能和预测人类行为的最有效表示方法,结果表明,深度学习模型从文本和图像数据中训练得到的表示方式优于仅从图像中训练得到的表示方式,强调了语言在塑造人类认知中的作用。
Jun, 2023
通过语言信息进行语言指导的少样本语义分割,使用视觉 - 语言预训练模型和遮罩优化来生成高质量伪语义遮罩,引入分布式原型监督方法和互补相关匹配模块来指导模型挖掘支持和查询图像的精确语义关系。在两个基准数据集上的实验表明,我们的方法为语言指导的少样本语义分割建立了新的基准,并达到了与最近的视觉指导方法竞争的结果。
Nov, 2023
本研究旨在从多语言角度探讨视觉引导语音模型(VGS)的学习。研究发现,将高资源语言的知识转化为低资源语言的知识可以提高跨模态检索任务中低资源语言的性能,对此,文章提出了两种方法:(1)使用强大的预训练高资源语言编码器和(2)使用语义相似的口语字幕。通过实验证明,这两种方法结合起来可以有效地使低资源语言的表现超越单语和双语对应物。
Mar, 2023
我们的研究展示了多语言语境下数据集和模型生成的图像标题之间的显著语义差异,以及不同语言训练的模型在对应语言的测试数据上表现最佳,而在多语言内容上训练的模型在所有评估数据组合上都表现良好,这对于改善图像理解的多样化感知具有重要意义。
Oct, 2023