关于最佳多模态嵌入空间的拓扑视角

May, 2024

关于最佳多模态嵌入空间的拓扑视角

Topological Perspectives on Optimal Multimodal Embedding Spaces

Abdul Aziz A.B, A.B Abdul Rahim

TL;DR通过对 CLIP 和 CLOOB 模型嵌入空间的拓扑数据分析，研究探索了多模态模型发展及其下游性能的关联，揭示了嵌入空间中的细微差异，为进一步改进和推进多模态模型研究提供了基础。

Abstract

Recent strides in multimodal model development have ignited a paradigm shift in the realm of text-to-image generation. Among these advancements, clip stands out as a remarkable achievement which is a sophisticate

multimodal model development clip cloob embedding spaces downstream performance

发现论文，激发创造

缓解差距：研究提升 CLIP 中跨模态对齐的方法

通过设计 AlignCLIP，本文回答了共享多模态编码器参数空间是否减少模态间隙以及通过内部模态分离是否可以缓解间隙的两个主要问题，并通过大量实验证明了 AlignCLIP 在嵌入的跨模态对齐上取得了显著的改进，从而减少了模态间隙，并在零样本图像分类、零样本多模态检索和零样本语义文本相似性等多个下游评估中保持了性能。

Jun, 2024

非模态鸿沟：对比鸿沟的特征与解决

在多模态对比模型中存在模态差距（modality gap），且对比损失（contrastive loss）实际上导致了这种差距。为了解决这个问题，研究人员通过将单模态对比损失的均匀性和对齐性原则引入到多模态环境中，改进了对比损失函数（CLIP loss），使得嵌入更均匀地分布在表示空间中，从而消除了差距，进而在零样本图像分类和多模态算术等下游任务中实现了更好的性能。

May, 2024

使用 CLIP 潜变量的分层文本条件图像生成

提出一个两阶段模型，先用 prior 生成 CLIP 图像嵌入，再由 decoder 在图像嵌入的条件下生成图像。实验表明该模型可以提高图像的多样性，并在完美保留语义和风格前提下变化非必要的细节。利用扩散模型作为 decoder, 同时使用自回归和扩散模型作为 prior，发现后者更加高效且产生的样本更优。

Apr, 2022

MotionCLIP: 将人体动作生成暴露到 CLIP 空间

MotionCLIP 是一种 3D 人体运动自编码器，在 latent space 中对接 CLIP 模型，以获得无与伦比的文本到运动的能力，实现了跨域动作，编辑和抽象语言规范等功能。

Mar, 2022

C-CLIP：用于缩小描述性文字之间差距的对比图像 - 文本编码器

通过训练对比图像 - 文本编码器，利用明确的评论式对提高检索结果的准确性进行了大幅改进，并且这种改进可扩展至多种非英语语言。

Sep, 2023

在线嵌入多尺度 CLIP 特征于 3D 地图中

本研究介绍了一种新的方法，将多尺度的 CLIP (对比性语言 - 图像预训练) 特征在线嵌入到 3D 地图中，通过利用 CLIP，该方法克服了传统的词汇有限方法的限制，并将语义信息融入到生成的地图中，从而高效地计算和嵌入多尺度 CLIP 特征，并且通过将 CLIP 特征嵌入到结果地图中，实现了离线检索和实时对象搜索，进一步提出了一种基于地图方法的零样本对象 - 目标导航系统，并通过对象 - 目标导航、离线对象检索和多对象 - 目标导航在模拟环境和真实机器人实验中验证了其有效性，结果表明，我们的方法不仅在地图生成方面表现出更快的性能，而且在对象 - 目标导航任务的成功率方面也超过了现有的最先进方法。

Mar, 2024

简单而有效：CLIP 嵌入用于具身人工智能

通过比较使用传统的 ImageNet 预训练模型和使用 CLIP 模型训练的模型，在实现与物理机器人和虚拟模拟任务相关的领域，我们展示并证明了在不加入神经复杂性、语义地图、辅助训练任务与深度图等的情况下使用 EmbCLIP 基线的高性能表现，从而证明了 CLIP 编码器对于情感取向环境下的物理对象导航与智能的有效性。

Nov, 2021

CLOOB: 现代 Hopfield 网络结合 InfoLOOB 超越 CLIP

本研究提出使用 Hopfield 网络和 InfoLOOB 目标函数结合进行预训练来解决 CLIP 模型在零样本迁移学习中的过拟合问题，由实验得知，这种方法相比于仅使用 CLIP 模型，在多个架构和数据集上均具有更好的零样本迁移学习表现。

Oct, 2021

增强图像检索：基于 CLIP 模型的照片搜索的全面研究

CLIP 模型是基于文本查询的图像检索的重要进展，通过在大规模数据集上进行训练获得显著的泛化能力，实现了图像和文本的跨模态理解，促进了自然语言理解和计算机视觉的无缝集成，为多媒体应用中的信息检索提供了强大的工具。

Jan, 2024

关于使用视觉语言模型进行视觉情感分析的研究：针对 CLIP 的一项研究

本研究在探索如何利用 CLIP 嵌入空间进行视觉情感分析，通过在 WEBEmo 基准测试上训练 CLIP-E 模型和进行交叉数据集评估，发现 CLIP-E 方法在细粒度分类和一些未经训练数据集上的泛化能力均优于现有模型，这引发了关于设计新基准和评估视觉情感分析的问题，并讨论了是否应该继续设计专门的深度学习模型或者更好地利用 CLIP 等大型视觉 - 语言模型的知识来解决这一任务。

Oct, 2023