AstroCLIP:天体基础模型的跨模态预训练
我们提出了一种名为 PAPERCLIP 的方法,使用神经网络模型将望远镜拍摄的天文观测与自然语言进行关联,通过从预训练的对比语言 - 图像预训练(CLIP)模型微调成功的观测提案摘要和相应的下游观测,可选择使用大型语言模型(LLM)来进行摘要总结。以哈勃空间望远镜(HST)的观测为例,我们展示了经过微调的模型通过针对图像检索和描述检索的测试体现了观测和自然语言之间的有意义的联合表示,通过使用文本作为界面,我们的研究证明了利用通用基础模型而非任务特定模型与天文数据交互的潜力。
Mar, 2024
通过对多模态数据进行对比学习,开发了 SeisCLIP 基础模型,以解决在地震学中特定任务的深度学习模型所遇到的标注数据不足和区域通用性有限的问题。该模型在事件分类、定位和震源机制分析等任务中的表现优于基准方法,适用于不同地区的不同数据集,具有更大的潜力成为地震学领域的基础模型,为基于基础模型的地震学研究开辟了创新方向。
Sep, 2023
通过鲁棒的微调与跨模态对齐,本研究提出了一种方法,旨在将 RS(Remote Sensing)图像模态与 CLIP 的视觉和文本模态对齐,从而在 RS 图像分类和跨模态检索任务中获得显著的性能提升。
Feb, 2024
通过使用 Cross-MoST 优化框架,结合 CLIP 等 2D 视觉语言模型,可以提高无需标签的零样本 3D 视觉模型的分类性能,并且实现图像和点云模态之间的跨模态知识交流。
Apr, 2024
本研究提出一种名为 MULTI-CLIP 的 3D 预训练视觉语言模型,可有效提高现有 3D 视觉问答任务的表现并构建出具有良好结构的 3D 场景特征空间。
Jun, 2023
通过设计 AlignCLIP,本文回答了共享多模态编码器参数空间是否减少模态间隙以及通过内部模态分离是否可以缓解间隙的两个主要问题,并通过大量实验证明了 AlignCLIP 在嵌入的跨模态对齐上取得了显著的改进,从而减少了模态间隙,并在零样本图像分类、零样本多模态检索和零样本语义文本相似性等多个下游评估中保持了性能。
Jun, 2024
eCLIP 是 CLIP 模型的增强版本,通过整合放射科医师眼动热图的专家注释,解决对比性多模式医学图像分析中的关键挑战,特别是数据稀缺和 “模态差异”。它通过整合热图处理器和利用稀缺的专家注释的 mixup 数据增强,提高模型的学习效果。通过多个任务的详细评估,包括零样本推理、线性探测、跨模态检索和使用冻结的大型语言模型进行检索增强生成(RAG)放射学报告,eCLIP 展示了嵌入质量的持续改进,揭示了增强的对齐性和一致性,证实了 eCLIP 在医学图像领域利用高质量注释进行丰富的多模态分析能力。
Mar, 2024
本文提出了 EfficientCLIP 方法,通过集成自信度学习来获取数据噪声较少的子集,并利用额外的丰富的非配对单模态文本数据来增强文本分支的泛化能力,从而实现了仅使用 CLIP 和 WenLan 的 1/10 培训资源就能达到中文跨模态检索任务的最优表现,并对文本检索和文本分类等单模态任务表现出良好的泛化能力。
Sep, 2021
通过跨模态引导和模态置信度集成,X-MoRe 方法利用 CLIP 的跨模态表示能力,从外部图文对数据集中检索相关的文本信息,并通过赋予可靠性更高的模态对最终预测产生贡献,从而在多样化的任务中展示了稳健的性能,充分发挥了 CLIP 的零样本分类能力。
Aug, 2023
通过使用科学论文的文本 - 图像数据,该研究探索在特定领域内加入具有更高质量的有限数量数据是否能够提高 CLIP 模型的整体性能。小规模实验结果显示模型性能有中等程度的提升,表明使用该研究所考虑的数据来源来训练大规模 CLIP 模型是一个有价值的研究方向。
Nov, 2023