GEOBIND：通过卫星图片绑定文本、图像和音频

Apr, 2024

GEOBIND：通过卫星图片绑定文本、图像和音频

GEOBIND: Binding Text, Image, and Audio through Satellite Images

Aayush Dhakal, Subash Khanal, Srikumar Sastry, Adeel Ahmad, Nathan Jacobs

TL;DR远程感知中，我们关注的是对一些地理位置建模的各种方式。我们提出了一种名为 GeoBind 的深度学习模型，可以从地理位置的卫星图像中推断出文本、图像和音频等多个模态。我们的方法不需要包含所有上述模态的单个复杂数据集，而只需要多个卫星图像配对数据。与传统的单模态模型不同，我们的结果表明，GeoBind 是多功能的，并且能够针对给定的卫星图像输入推理出多个模态。

Abstract

In remote sensing, we are interested in modeling various modalities for some geographic location. Several works have focused on learning the relationship between a location and type of landscape, habitability, audio, textual descriptions, etc. Recently, a common way to approach these p

remote sensing deep-learning model multiple modalities satellite imagery embedding space

发现论文，激发创造

ImageBind: 一个绑定所有嵌入空间的嵌入空间

ImageBind 是一种学习跨六种不同类型数据（图像、文本、音频、深度、热成像和 IMU 数据）联合嵌入的方法，只需使用图像数据对它们进行绑定。它能够实现跨模态检索、跨模态检测和生成等新颖的应用，而且表现出强大的零样本和有限样本识别能力，能够评估视觉模型的性能。

May, 2023

地球观测任务的全球多模态嵌入式少样本学习

使用 CLIP/ViT 模型在占总陆地面积约 10% 的五个区域内，利用卫星图像的三种不同模态对其进行预训练，通过嵌入向量和经典机器学习方法，在植被、建筑表面、农田和常水的地球观测相关任务中，仅需少量标记数据即可达到与完整标记数据相当的性能水平，并且该模型对缺失的数据模态和通道具备容错性。

Sep, 2023

ImageBind-LLM：多模态指令调整

我们提出了 ImageBind-LLM，一种通过 ImageBind 进行大型语言模型（LLM）的多模态指令调优方法。我们的方法可以响应多模态条件，包括音频、三维点云、视频以及它们的嵌入空间算术，仅通过图像文本对齐训练。我们的模型表现出卓越的多模态指令跟随能力，并具有显著的语言生成质量。

Sep, 2023

基于学习嵌入的卫星图像定位

本文提出了一种基于视觉的方法，利用公开的卫星图像作为对环境的唯一先验知识，对地面车辆进行定位，并通过神经多视点模型消除图像之间的视角和外观差异。实验证明，该方法能够在训练集之外的环境中定位地面图像。

Apr, 2017

语言绑定：通过基于语言的语义对齐将视频 - 语言预训练扩展到 N - 模态

我们提出了一种称为 LanguageBind 的方法，通过冻结 VL 预训练得到的语言编码器，然后使用对比学习训练其他多模态编码器，实现多模态语义对齐，同时我们还提出了 VIDAL-10M 数据集用于此目的，经过在该数据集上的预训练，我们在零样本视频文本检索方面优于 ImageBind 1.2％ R@1，并且在零样本视频，音频，深度和红外理解任务方面也取得了显著改进。

Oct, 2023

使用维基百科学习全球卫星图像的解释

本文提出了一种新的方法来解决缺乏标注训练数据在卫星图像的细粒度解释方面的难题，通过将地理参考维基百科文章与其对应位置的卫星图像配对构建名为 WikiSatNet 的新型数据集，并提出了两种学习卫星图像表示的策略。在最新发布的 fMoW 数据集上，本文的预训练策略可以将在 ImageNet 预训练的模型的 F1 分数提高 4.5%。

May, 2019

学习三模态嵌入用于零样本声景映射

我们的研究主要关注声音景观映射的任务，利用先进的模型对地理位置的语音、语音的文本描述以及其拍摄地的航拍图像进行编码，构建了三种模态的共享嵌入空间，从而可以根据文本或音频查询构建任何地理区域的声音景观地图。在 SoundingEarth 数据集上，我们的方法明显优于现有最先进方法，在图像到音频的召回率改善了从 0.256 提高到 0.450。我们的代码可在此链接中找到。

Sep, 2023

MMEarth: 多模态预测任务研究地理空间表示学习

利用未标记的地球观测数据创建多模态预训练数据集，通过多模态预训练任务，提出了改进的 ConvNeXt V2 架构的 Multi-Pretext Masked Autoencoder (MP-MAE) 方法，证明多模态预训练可以显著提高图像分类和语义分割的性能，以及标签和参数的效率。

May, 2024

OmniSat：地球观测自监督模态融合

利用地球观测数据的多模态性质，提出了一种无监督多模态学习方法 OmniSat，可用于改进森林学、土地覆盖分类和农作物映射等任务，并在半监督和全监督设置下获得更好的性能。

Apr, 2024

声音引导的语义图像操作

该论文提出了一种将声音直接编码成多模态（图像 - 文本）嵌入空间并从该空间中操纵图像的框架，该方法使用音频编码器从音频输入中生成潜在的表示，并基于对齐的嵌入使用直接潜在优化方法进行声音引导的图像操纵，实验证明该方法在零样本音频分类和语义级图像分类上优于其他文本和声音引导的最新方法。

Nov, 2021