关键词multi-modal foundation models
搜索结果 - 8
- 使用合成数据进行零样本蒸馏的图像编码器:如何有效利用
利用图像特征为基础的 L2 蒸馏损失,我们训练出的学生模型在四个特定领域数据集上实现了与在 DataCompXL 上训练的 ViT-B/32 教师模型相当的零样本性能,同时参数减少了高达 92%。
- 强大的 CLIP:用于强大的大规模视觉 - 语言模型的无监督对抗微调的视觉嵌入
我们提出了一种无监督的对抗微调方案来获得强大的 CLIP 视觉编码器,从而在依赖于 CLIP 的所有视觉下游任务(VLM,零样本分类)中获得强大的鲁棒性。
- AVA:通过视觉感知驱动的决策使成为自主可视化代理
我们的研究探索多模式基础模型在可视化中的应用,利用多模式大语言模型 (LMM) 的视觉感知能力来开发自主可视化代理人 (AVAs),它们可以通过自然语言解释和实现用户定义的可视化目标。我们提出了 AVAs 设计的第一个框架,并展示了几种使用 - AGI 系统的元提示
该论文深入探讨了 “元提示” 这一新颖技术,革新了大型语言模型、多模态基础模型和人工智能系统在问题解决和数据解释方面的方法。该技术根植于类型理论和范畴论,并注重信息的结构和语法,提供了一种超越传统以内容为重点的方法的独特框架。我们详细阐述了 - 利用基础模型进行无监督音频 - 视觉分割
语音 - 视觉分割(AVS)通过像素级精确在视觉场景中描绘可听到的对象。我们提出了一种新的跨模态语义过滤(CMSF)方法,以解决这个问题,并利用现成的多模态基础模型来准确地关联潜在的音频 - 掩码对。我们的无监督方法在复杂情景中的多个听觉对 - ICCV多模基础模型的对抗鲁棒性
本文研究了使用图像中的不可察觉攻击来改变多模态基础模型的标题输出,揭示了恶意内容提供者如何利用此方式伤害诚实用户,并强调了部署的多模态基础模型应采取对抗性攻击的对策。
- 面向放射学的通用基础模型
本研究旨在构建放射学基础模型(RadFM),通过数据、模型设计和评估的多方面视角构建基础模型。我们的贡献包括:(一)构建一个大规模的医疗多模态数据集 MedMD,包含 1600 万份 2D 和 3D 医学扫描,这是首个包含 3D 医学扫描的 - 将预训练的视觉语言基础模型应用于医学图像领域
本研究旨在将大型预训练基础模型的表现能力扩展到特定的医疗概念中,通过研究 Stable Diffusion 模型的子组件,进而生成医学影像,并通过定量和定性的方法对模型效果进行评估。