关于最佳多模态嵌入空间的拓扑视角
通过设计 AlignCLIP,本文回答了共享多模态编码器参数空间是否减少模态间隙以及通过内部模态分离是否可以缓解间隙的两个主要问题,并通过大量实验证明了 AlignCLIP 在嵌入的跨模态对齐上取得了显著的改进,从而减少了模态间隙,并在零样本图像分类、零样本多模态检索和零样本语义文本相似性等多个下游评估中保持了性能。
Jun, 2024
在多模态对比模型中存在模态差距(modality gap),且对比损失(contrastive loss)实际上导致了这种差距。为了解决这个问题,研究人员通过将单模态对比损失的均匀性和对齐性原则引入到多模态环境中,改进了对比损失函数(CLIP loss),使得嵌入更均匀地分布在表示空间中,从而消除了差距,进而在零样本图像分类和多模态算术等下游任务中实现了更好的性能。
May, 2024
提出一个两阶段模型,先用 prior 生成 CLIP 图像嵌入,再由 decoder 在图像嵌入的条件下生成图像。实验表明该模型可以提高图像的多样性,并在完美保留语义和风格前提下变化非必要的细节。利用扩散模型作为 decoder, 同时使用自回归和扩散模型作为 prior,发现后者更加高效且产生的样本更优。
Apr, 2022
MotionCLIP 是一种 3D 人体运动自编码器,在 latent space 中对接 CLIP 模型,以获得无与伦比的文本到运动的能力,实现了跨域动作,编辑和抽象语言规范等功能。
Mar, 2022
通过训练对比图像 - 文本编码器,利用明确的评论式对提高检索结果的准确性进行了大幅改进,并且这种改进可扩展至多种非英语语言。
Sep, 2023
本研究介绍了一种新的方法,将多尺度的 CLIP (对比性语言 - 图像预训练) 特征在线嵌入到 3D 地图中,通过利用 CLIP,该方法克服了传统的词汇有限方法的限制,并将语义信息融入到生成的地图中,从而高效地计算和嵌入多尺度 CLIP 特征,并且通过将 CLIP 特征嵌入到结果地图中,实现了离线检索和实时对象搜索,进一步提出了一种基于地图方法的零样本对象 - 目标导航系统,并通过对象 - 目标导航、离线对象检索和多对象 - 目标导航在模拟环境和真实机器人实验中验证了其有效性,结果表明,我们的方法不仅在地图生成方面表现出更快的性能,而且在对象 - 目标导航任务的成功率方面也超过了现有的最先进方法。
Mar, 2024
通过比较使用传统的 ImageNet 预训练模型和使用 CLIP 模型训练的模型,在实现与物理机器人和虚拟模拟任务相关的领域,我们展示并证明了在不加入神经复杂性、语义地图、辅助训练任务与深度图等的情况下使用 EmbCLIP 基线的高性能表现,从而证明了 CLIP 编码器对于情感取向环境下的物理对象导航与智能的有效性。
Nov, 2021
本研究提出使用 Hopfield 网络和 InfoLOOB 目标函数结合进行预训练来解决 CLIP 模型在零样本迁移学习中的过拟合问题,由实验得知,这种方法相比于仅使用 CLIP 模型,在多个架构和数据集上均具有更好的零样本迁移学习表现。
Oct, 2021
CLIP 模型是基于文本查询的图像检索的重要进展,通过在大规模数据集上进行训练获得显著的泛化能力,实现了图像和文本的跨模态理解,促进了自然语言理解和计算机视觉的无缝集成,为多媒体应用中的信息检索提供了强大的工具。
Jan, 2024
本研究在探索如何利用 CLIP 嵌入空间进行视觉情感分析,通过在 WEBEmo 基准测试上训练 CLIP-E 模型和进行交叉数据集评估,发现 CLIP-E 方法在细粒度分类和一些未经训练数据集上的泛化能力均优于现有模型,这引发了关于设计新基准和评估视觉情感分析的问题,并讨论了是否应该继续设计专门的深度学习模型或者更好地利用 CLIP 等大型视觉 - 语言模型的知识来解决这一任务。
Oct, 2023