- CLIP3D-AD:使用多视角图像生成扩展 CLIP 进行 3D 小样本异常检测
我们在本文中提出了 CLIP3D-AD,一种有效的应用于 3D-FSAD 的方法,通过合成异常图像来实现基于 CLIP 的 3D 异常分类和分割,通过融合多视角图像的特征来加强视觉 - 语言相关性。
- M3T: 多模态医疗转换器 连接临床背景与视觉洞察 用于视网膜图像医学描述生成
提出了一种集成视觉表示和诊断关键词的新型深度学习架构 (Multi-Modal Medical Transformer, M3T),用于眼底图像的生成精确和连贯的医学描述。在 DeepEyeNet 数据集上的实验研究验证了 M3T 在满足眼 - DMT-JEPA:用于联合嵌入预测结构的判别性掩码目标
我们介绍了一种新的基于 JEPA 的 masked modeling 目标 DMT-JEPA,通过计算特征相似性和使用轻量级交叉注意力头,将语义相似的邻域图像作为目标来生成具有辨别力的潜在目标,从而弥补了 JEPA 在理解局部语义方面的不足 - vHeat: 基于热传导的视觉模型构建
通过模拟热传导原理,本研究提出了 vHeat,一种新颖的视觉模型,可以同时实现高计算效率和全局感受野,并通过 Heat Conduction Operator (HCO) 模块将其应用于深度模型中。广泛的实验证明 vHeat 在各种视觉任务 - 学习视觉语义子空间表示进行命题推理
我们提出了一种基于核范数损失的新方法,用于学习既符合指定语义结构又有助于概率命题推理的视觉表征,最小化该方法编码了语义的谱几何在子空间格点上,可以用投影算子表示逻辑命题。
- 通过视觉表示精炼视觉 - 语言模型中的偏差感知
通过使用简单的线性探测器,本研究探讨了如何从 CLIP 的嵌入中有效地提取特定任务的核心特征,结果显示 CLIP 的文本表示往往受到了有偏向的预训练数据中具有误导性的相关性的影响,实证结果表明相比文本嵌入,依赖于 CLIP 的视觉表示更为实 - 听触:面向丰富接触操控的音频 - 视觉预训练
通过使用接触式麦克风作为替代触觉传感器,本文介绍了第一种利用大规模多模态先前训练进行机器人操作的方法,通过从大规模音频 - 视觉先前训练中获取表示来提高机器人操作的性能。
- 对比视觉语言预训练中的标题多样性建模
我们介绍了一种新的图像预训练模型 Llip,它通过模拟可能与图像匹配的多样的标题来提升图像的描述能力,并通过条件化输入信息来生成更丰富的视觉表示,相较于 CLIP 等基线模型,在多项任务上都有更好的性能表现,包括零样本分类和零样本检索。
- CatLIP: 在 Web 规模的图文数据上 2.7 倍速度预训练的 CLIP 级别视觉识别准确性
通过对网络规模的图像文本数据进行弱监督预训练,本论文提出了一种消除对比损失中成对图像和文本相似性计算的需要的方法,在训练速度上取得了显著的 2.7 倍加速。通过广泛的实验证明,该方法在各种视觉任务中具有高质量的表征。
- 动态与静态:面向自主训练的视频对象分割的混合视觉对应
本文介绍了一种名为 HVC 的混合静态动态视觉对应框架,用于自监督视频对象分割。HVC 从静态图像中提取伪动态信号,实现了高效且可扩展的 VOS 模型。该方法利用极简的全卷积架构在图像裁剪视图中捕捉静态动态视觉对应关系,并通过统一的自监督方 - 掩码图像建模作为一种跨眼动自监督学习的框架
智能系统通过自我监督学习中的生成模型将复杂的感知输入转化为结构化编码,以获取与任务相关的信息,如物体类别和视觉表征。
- SafeGen: 缓解文本生成图像模型的不安全内容
SafeGen 是一种抵御文本到图像模型生成不安全内容的框架,通过消除不安全的视觉表示,从而提高抵御对抗性提示的能力,并在保留良性图像的高保真度的同时有效地抑制不安全内容的生成,超过了八种最先进的基线方法,实现了 99.1% 的性别内容去除 - Edit3K: 视频编辑组件的通用表示学习
该研究聚焦于理解主要的视频制作流程,包括六种主要的编辑组件:视频效果、动画、过渡、滤镜、贴纸和文本。该论文介绍了第一个用于视频创作的大规模数据集,探索了编辑组件的视觉表示方法,并提出了一种新的学习方法,能够更好地学习与编辑组件相关的视觉特征 - MIM4D:多视角视频遮蔽建模的自动驾驶表示学习
从大规模多视角视频数据中学习强大且可扩展的视觉表征仍然是计算机视觉和自动驾驶领域的一项挑战。我们提出了 MIM4D,一种基于双重遮罩图像建模(MIM)的新的预训练范例,它通过训练遮罩的多视角视频输入来利用空间和时间关系,从而构建伪 3D 特 - LeOCLR: 利用原始图像进行对比学习视觉表征
本论文引入了 LeOCLR(Leveraging Original Images for Contrastive Learning of Visual Representations),一种新的实例辨识方法和适应的损失函数,以保证正样本之间 - 生成模型能否改善自监督表示学习?
自我监督学习通过使用生成模型生成语义一致的图像增强,丰富了学习强大视觉表示的方法,并显著提高了学习到的视觉表征的质量。
- 去噪自回归表示学习
本论文提出了一种新的生成方法 ——DARL,它使用仅有解码器的 Transformer 来自主预测图像块。我们发现仅使用均方差(Mean Squared Error,MSE)进行训练可以得到强大的表示。为了增强图像生成能力,我们用去噪补丁解 - 基于图像的可视化分类
对来自图像的视觉表达进行定性分析,得出 10 种可定义的可视化类型并提供相关数据集和在线工具,用于研究、教学和标准化可视化设计。
- 重新思考基于视频学习视觉表示的特征预测
该研究探讨了以特征预测作为无监督学习的独立目标,并介绍了 V-JEPA,一个仅使用特征预测目标进行训练的视觉模型集合,无需预训练图像编码器、文本、负样本、重建或其他监督方式。我们的研究结果表明,通过预测视频特征进行学习可以得到性能良好的通用 - 问卷分析方法:通过对投资者竞赛数据进行集群分析获得的见解
本文提出了一种基于问卷数据的分析方法,并在投资者数据中应用该方法以发现洞察。该方法通过聚类分析将类别问题归约为二元问题,并使用转化率指标进行规则发现。为验证聚类分析和问题之间的关系发现,提出了创新的可视化表达方式。与金融数据结合后,发现了与