AstroCLIP：天体基础模型的跨模态预训练

Oct, 2023

AstroCLIP：天体基础模型的跨模态预训练

AstroCLIP: Cross-Modal Pre-Training for Astronomical Foundation Models

Francois Lanusse, Liam Parker, Siavash Golkar, Miles Cranmer, Alberto Bietti...

TL;DRAstroCLIP 是一种构建天文基础模型的策略，它通过图像和光学星系光谱之间的跨模态对比学习方法实现了高度信息密集的嵌入表达，从而实现了准确的跨模态搜索和有竞争力的零式和少样本预测。

Abstract

We present astroclip, a strategy to facilitate the construction of astronomical foundation models that bridge the gap between diverse observational modalities. We demonstrate that a cross-modal contrastive learning approach between →

astroclip cross-modal contrastive learning images optical spectra dark energy spectroscopic instrument (desi)

发现论文，激发创造

PAPERCLIP: 将天文观测与自然语言关联的多模型

我们提出了一种名为 PAPERCLIP 的方法，使用神经网络模型将望远镜拍摄的天文观测与自然语言进行关联，通过从预训练的对比语言 - 图像预训练（CLIP）模型微调成功的观测提案摘要和相应的下游观测，可选择使用大型语言模型（LLM）来进行摘要总结。以哈勃空间望远镜（HST）的观测为例，我们展示了经过微调的模型通过针对图像检索和描述检索的测试体现了观测和自然语言之间的有意义的联合表示，通过使用文本作为界面，我们的研究证明了利用通用基础模型而非任务特定模型与天文数据交互的潜力。

Mar, 2024

SeisCLIP：基于多模态数据预训练的地震学基础模型，用于多目标地震特征提取

通过对多模态数据进行对比学习，开发了 SeisCLIP 基础模型，以解决在地震学中特定任务的深度学习模型所遇到的标注数据不足和区域通用性有限的问题。该模型在事件分类、定位和震源机制分析等任务中的表现优于基准方法，适用于不同地区的不同数据集，具有更大的潜力成为地震学领域的基础模型，为基于基础模型的地震学研究开辟了创新方向。

Sep, 2023

注意模态差异：通过交叉模态对齐实现遥感视觉语言模型

通过鲁棒的微调与跨模态对齐，本研究提出了一种方法，旨在将 RS（Remote Sensing）图像模态与 CLIP 的视觉和文本模态对齐，从而在 RS 图像分类和跨模态检索任务中获得显著的性能提升。

Feb, 2024

跨模态自训练：无需标签的图像与点云对齐学习分类

通过使用 Cross-MoST 优化框架，结合 CLIP 等 2D 视觉语言模型，可以提高无需标签的零样本 3D 视觉模型的分类性能，并且实现图像和点云模态之间的跨模态知识交流。

Apr, 2024

Multi-CLIP：针对 3D 场景中问答任务的对比视觉语言预训练

本研究提出一种名为 MULTI-CLIP 的 3D 预训练视觉语言模型，可有效提高现有 3D 视觉问答任务的表现并构建出具有良好结构的 3D 场景特征空间。

Jun, 2023

缓解差距：研究提升 CLIP 中跨模态对齐的方法

通过设计 AlignCLIP，本文回答了共享多模态编码器参数空间是否减少模态间隙以及通过内部模态分离是否可以缓解间隙的两个主要问题，并通过大量实验证明了 AlignCLIP 在嵌入的跨模态对齐上取得了显著的改进，从而减少了模态间隙，并在零样本图像分类、零样本多模态检索和零样本语义文本相似性等多个下游评估中保持了性能。

Jun, 2024

优化医学多模态对比学习：专家批注

eCLIP 是 CLIP 模型的增强版本，通过整合放射科医师眼动热图的专家注释，解决对比性多模式医学图像分析中的关键挑战，特别是数据稀缺和 “模态差异”。它通过整合热图处理器和利用稀缺的专家注释的 mixup 数据增强，提高模型的学习效果。通过多个任务的详细评估，包括零样本推理、线性探测、跨模态检索和使用冻结的大型语言模型进行检索增强生成（RAG）放射学报告，eCLIP 展示了嵌入质量的持续改进，揭示了增强的对齐性和一致性，证实了 eCLIP 在医学图像领域利用高质量注释进行丰富的多模态分析能力。

Mar, 2024

EfficientCLIP: 基于集成自信学习和语言模型的高效跨模态预训练

本文提出了 EfficientCLIP 方法，通过集成自信度学习来获取数据噪声较少的子集，并利用额外的丰富的非配对单模态文本数据来增强文本分支的泛化能力，从而实现了仅使用 CLIP 和 WenLan 的 1/10 培训资源就能达到中文跨模态检索任务的最优表现，并对文本检索和文本分类等单模态任务表现出良好的泛化能力。

Sep, 2021

跨模态检索遇见推理：通过跨模态检索提升零样本分类

通过跨模态引导和模态置信度集成，X-MoRe 方法利用 CLIP 的跨模态表示能力，从外部图文对数据集中检索相关的文本信息，并通过赋予可靠性更高的模态对最终预测产生贡献，从而在多样化的任务中展示了稳健的性能，充分发挥了 CLIP 的零样本分类能力。

Aug, 2023

使用科学论文数据训练 CLIP 模型

通过使用科学论文的文本 - 图像数据，该研究探索在特定领域内加入具有更高质量的有限数量数据是否能够提高 CLIP 模型的整体性能。小规模实验结果显示模型性能有中等程度的提升，表明使用该研究所考虑的数据来源来训练大规模 CLIP 模型是一个有价值的研究方向。

Nov, 2023