- Yo'LLaVA: 个性化语言和视觉助手
本文介绍了将个性化主题嵌入到一组潜在令牌中的 Yo'LLaVA 方法,通过少量示例图像有效地学习并更有效地编码视觉属性,用于实现 Large Multimodal Models(LMMs)与特定主题的对话。
- 多模态大型语言模型对图像质量评估的全面研究
通过对多模态大语言模型(MLLMs)在图像质量评估(IQA)中的应用进行综合系统的研究和探索,发现仅有关闭源 GPT-4V 能够合理地描述人类对图像质量的感知,但在细粒度的质量变化(如颜色差异)和多图像的视觉质量比较等任务上较为薄弱。
- SIMPLOT:通过提炼要点增强图表问答
我们提出了一种名为 SIMPLOT 的方法,该方法能够仅提取图表推理所需的要素,通过对表格进行推理实现准确的图表推理,并解决了最近一种最先进的模型忽略颜色等视觉属性的缺点。
- 面向大规模精细图像检索的属性感知深度哈希与自一致性
本研究提出了一种面向大规模细粒度图像检索的属性感知哈希网络,通过生成属性感知哈希码,既能提高检索效率,又能建立哈希码和视觉属性之间的明确对应关系。在无监督的条件下,通过注意力捕获视觉表征并开发一个编码器 - 解码器结构网络的重构任务,从外观 - 在文本图像生成模型中定位和编辑知识
文本到图像扩散模型研究了知识表示和视觉特征,采用因果中介分析方法来理解大规模文本到图像扩散模型中不同视觉属性相关的知识是如何存储的,并发现在条件 UNet 的一组组件中分布着不同属性的知识。同时,发现在公共文本到图像模型中,只存在一个因果状 - TeCH: 文本引导下的逼真着装人体重建
通过使用描述性文本启示和个性化模型,TeCH 提出了一种混合的三维重建方法,用于重建细节丰富的衣着人物的未见区域,并在重建准确性和渲染质量方面优于现有方法。
- ProSpect:用于个性化属性感知图像生成的拓展条件
本文提出一种新的图像生成方法 ProSpect,结合 Prompt Spectrum Space P * 和 per-stage prompts 编码图像,使图像的特定视觉属性比如材质、风格和布局可以更容易地被嵌入和编辑,进而应用于图像转换 - 适用于任意样本学习的属性原型网络
提出一种基于属性本地化的图像表示学习框架,通过视觉语义嵌入层学习全局特征,并通过属性原型网络同时回归和解相关属性,为任意样本,包括零样本和少样本图像分类任务提供有益的属性知识转移,并引入变焦模块以局部化和裁剪信息区域鼓励网络显式地学习最有效 - 三维物体语言基础
本文介绍了一个新的推理任务,旨在针对三维对象的视觉和非视觉语言,并介绍了用于区分对象的几种 CLIP 模型。虽然最近在联合建模视觉和语言方面取得了进展,但这些基于图像的模型仍然对对象的三维性质了解不足,此文发现,将视图估计添加到语言引理模型 - CVPR野外视觉属性预测学习
本研究提出一种用于预测对象视觉属性的大规模数据集,通过多标签分类解决对象属性预测问题,并采用多种技术来解决大量属性、标签稀疏性、数据不平衡和对象遮挡等问题,其中包括使用低级和高级 CNN 特征、多跳关注、重新加权和重新抽样技术、负标签扩展和 - ACL大规模零样本学习的文档表示重访
本文讨论了使用语义表达来识别未见过的物体,提出了一种基于文档的语义表示方法,通过半自动机制提取并加权了文档中包含的可视信息,形成了语义表示,相比现有方法在 ImageNet 数据集上表现更佳。
- CVPR通过鲁棒特征提取理解深度网络的故障
本文介绍并研究了一种方法,旨在通过识别导致模型失败的视觉特征,对学习模型的传统评估方法进行补充,从而更好地表现重要和有益的失败模式。作者进一步提出了一种可视化方法用于帮助人们理解这些特征的含义,并在 ImageNet 数据集上进行了评估,结 - 轻量级生成对抗网络用于文本引导的图像操纵
我们提出了一种新颖的轻量化生成对抗网络,使用自然语言描述来进行有效的图像操作。我们提出了一种新的单词级别鉴别器,为生成器提供细粒度的单词级别训练反馈,以便训练一个轻量级生成器,该生成器具有少量参数,但仍然能够正确地关注图像的特定视觉属性,然 - 零样本学习的属性原型网络
通过集成属性局部化能力的图像表示,建议使用只有类别级别的属性来更好地将基于属性的知识从已知类别转移到未知类别,为此,提出了一种新的零样本表示学习框架,使用属性原型网络共同学习具有区分性全局和局部特征。对于三个零样本学习基准测试,我们的局部增 - MM描述改变什么:一种文本引导的无监督图像到图像转换方法
本研究提出了一种基于图像到图像翻译的新型无监督方法,通过类似于 “将头发颜色变为黑色” 的命令句子来改变给定图像的属性。我们的模型可以学习使用文本描述修改图像的视觉属性,而无需人工注释的数据集或文本描述。实验结果表明,我们的方法在两个大规模 - ECCV使用自然语言描述纹理
本文研究了纹理的视觉属性及对不同模型的影响,发现现有的生成和判别模型不能很好地捕捉纹理的组成属性。我们以证据支持了此观点,并提供了可解释性的模型来生成基于语言的解释,以加深对纹理分类的理解。我们通过在 Caltech-UCSD 鸟类数据集上 - ACL让我来选择:从语境到字体选择
本文旨在学习字体的视觉属性和它们所应用的文本的语境之间的关联,并引入一个包含社交媒体帖子和广告中不同主题示例的新数据集,通过众包标注,通过研究不同的端到端模型来学习众包数据上的标签分布并捕捉所有注释之间的主观性。
- MM基于属性的人员再识别的实证研究
本文通过属性 - based 方法进行人物再识别,探讨了高精度专家属性与普通人属性的差异及影响,发现非专家属性更能反映当前使用属性 - based 方法进行人物再识别的情况。
- 变分上下文:利用视觉和文本上下文来确定指代表达式
本研究采用变分贝叶斯方法来解决在图像中定位和链接指称表述时复杂上下文建模的问题,并考虑语义信息和上下文的相互关系以及在监督和非监督设置中的提高。
- CVPR跨模态引导擦除的指代表达空间改进
本文提出了一种新的跨模态注意力制导抹除方法,以处理图像和指示表达之间的多种维度的视觉和文本信息,这种方法取得了三个指示表达基准数据集的最先进性能。