- VideoGPT+: 图像和视频编码器的综合应用以提升视频理解能力
VideoGPT+ combines the benefits of image and video encoders to improve video understanding, achieving enhanced performan - 学习无姿态注释的类别级物体姿态估计器
提出了一种不需要姿态标注的类别级三维物体姿态估计方法,通过使用扩散模型生成一组具有姿态差异的图像,并利用图像编码器和新颖的学习策略解决噪声和伪影问题,实现了从单次拍摄中对类别级物体姿态的估计,并在少样本类别级物体姿态估计基准上显著优于其他先 - MM1: 多模态 LLM 预训练的方法、分析与洞察
讨论构建出色的多模态大型语言模型的重要组成部分和数据选择,通过仔细和全面的分析,证明了使用图像 - 标题、交错图像 - 文本和仅文本数据进行大规模多模态预训练对于在多个基准测试中实现最新成果至关重要。通过扩展所提出的模型,构建了以稠密模型和 - 通用影像编码器 DINOv2 用于医学影像配准
利用一种训练免费的图像编码器,本文介绍了一种新的变形图像配准方法 DINO-Reg,并在医学图像配准领域中取得了第一名的成绩。这是将通用视觉基础模型应用于医学图像配准的首次尝试。
- SSR:SAM 是用于领域适应语义分割的强正则化方法
本文介绍了 SSR,它利用 SAM(任意分割)作为强正则化器,在训练过程中大大增强了处理各个领域的图像编码器的健壮性。
- 黑盒定向对抗攻击 Segment Anything (SAM)
该研究旨在对 SAM 进行有针对性的对抗攻击,提出了一种仅攻击图像编码器的简单且有效的方法,并提出了一种新的正则化损失以增强不同模型之间的特征传递性,通过增加对随机自然图像的特征占优势来进行黑盒对抗攻击。
- 通过基于文本的分解解释 CLIP 的图像表示
我们通过分析个别模型组件对最终表示的影响,研究了 CLIP 图像编码器。我们将图像表示分解为各个图像块、模型层和注意力头之间的总和,并使用 CLIP 的文本表示来解释各个部分。通过解释注意力头,我们确定了每个头的角色,通过自动寻找涵盖其输出 - 面向移动应用的轻量级 SAM:更快的分割任何物体
该论文介绍了一种名为 MobileSAM 的轻量级 SAM 模型,其将重量级图像编码器替换为轻量级图像编码器,并且使用解耦蒸馏技术来训练模型,以便在移动设备上使用,相对于 FastSAM,MobileSAM 模型可缩小 7 倍且速度快 4 - AniFaceDrawing:在你的素描中探索动漫肖像
本文重点研究了如何使用人工智能技术,特别是 StyleGAN 和潜空间探索方法,为动漫画家辅助提供高质量的肖像画创作。研究表明,使用我们提出的基于 S2I 的框架,动漫画家可以通过不断精确的画出轮廓线,自动得到高质量的头像肖像画。
- 基于像素的自主驾驶城市环境强化学习
本文介绍了一种新的通过图像学习的强化学习(RLfP)方法,名为 RLAD,用于提高城市自动驾驶(AD)的性能。 该方法包括增强的图像编码器、WayConv1D 和辅助损失等技术,并在 NoCrash 基准测试中明显优于所有其他方法。
- SelfDocSeg:面向文档分割的自监督基于视觉的方法
使用自我监督技术,将文档图像中的伪造布局用于预先训练图像编码器,以在无监督的框架内学习文档对象的表示和定位,然后使用目标检测模型进行微调,该流水线在文档布局分析中表现卓越。
- BLIP-2:使用冻结图像编码器和大型语言模型引导语言图像预训练
本文提出 BLIP-2,一种通用且高效的预训练策略,通过使用冻结的图像编码器和大型语言模型来引导视觉语言表示学习,从而实现零样本图像到文本的生成。BLIP-2 在各种视觉语言任务上取得了最先进的性能。
- VectorFlow:结合图像和向量进行交通占用和流量预测
本文提出了一种新的占据流场预测算法,该算法将图像编码器和向量编码器的特征进行融合以生成更准确的占据和流量预测,该算法在 Waymo Open Dataset Occupancy and Flow Prediction Challenge 中 - 在 CLIP 中区分视觉和文本概念
本篇论文探讨了 CLIP 网络上单词图片和自然图片表征的纠缠度,发现其图像编码器可以将单词图片与描述相符的自然图片匹配,但同时处理字母的过程是与含义处理分离的,使用者还提出了一种有效的侧重隔离或排除拼写能力的表征子空间的方法,并对其在检索任 - 自监督学习的对抗性屏蔽
ADIOS 是一种自监督学习的掩蔽图像模型框架,同时学习掩蔽功能和图像编码器,其通过对抗目标来训练。该框架的性能优于现有的自监督学习方法,在各种任务和数据集上均有所改进。
- 通过属性分解的文本生成人脸
提出了一种名为 TTF-HD 的文本到面部图像生成模型,该模型不仅能够生成高分辨率(1024x1024)的具有文本到图像一致性的图像,还能输出多个不同的面孔,以自然的方式覆盖广泛面部特征。实验结果表明,TTF-HD 具有最先进的性能。
- CVPR多标签分类的无序循环模型
本文提出一种动态排序正解标签的方法,用于多标签分类任务,以加快更优 LSTM 模型的训练。实验证明,该方法避免了生成重复标签,并超过了其他 CNN-RNN 模型的性能,证明了在挑战性的数据集上使用标准结构的图像编码器和语言解码器采用提出的损