- TroL:大规模语言与视觉模型的层遍历
一种新的高效 LLVM 家族,通过层级遍历的技术有效提升性能,使其超越了具有更大模型规模的开源 LLVM 并与具有实质规模的闭源 LLVM 相媲美。
- 与人类审美观在检索中对齐的视觉模型:基准和算法
利用大型语言模型 (LLM) 的推理能力和美学模型,在一个检索系统中,提出了一种基于偏好的强化学习方法,用于调整视觉模型以更好地与人类美学对齐并提升视觉模型的美学行为。通过使用大型多模型 (LMM) 评估美学表现,并引入名为 HPIR 的新 - 合成训练图像的未实现承诺:使用检索的真实图像性能更好
通过对比采用生成模型生成的人工数据和来自真实数据的有针对性图像进行微调,在任务上针对性生成的合成数据被真实数据普遍匹配或超越,这表明合成图像中存在生成器伪像和不准确的任务相关视觉细节。总体而言,我们认为在使用合成数据进行训练时,检索是一个必 - 增强视觉模型以实现对文本密集内容的理解和交互
增强视觉模型对包含大量文本信息的图像进行理解和学习的能力,通过数据预处理、微调和模型评估等方法,在集成 CLIP 和文本嵌入模型的视觉聊天应用中取得了 96.71% 的精度,旨在提升复杂视觉文本数据的跨模态人工智能理解能力。
- 通过专家混合实现激活稀疏性分解用于持续测试时间适应
利用 Mixture-of-Activation-Sparsity-Experts 将神经激活分解为高激活和低激活成分,结合领域信息和自适应特征选择阈值,通过引入 Homeostatic-Proximal 损失解决了模型连续适应中的问题,从 - 深度学习模型在捕捉人类概念方面表现如何?以典型性效应为例
深度学习模型中的表示学习结果与人类的表示学习有很大的一致性,并且综合语言和视觉模型能够更准确地预测人类典型性判断。
- MemoryMamba:记忆增强的状态空间模型用于缺陷识别
自动化制造中的缺陷检测技术需求增长,但现有视觉模型在处理复杂的制造场景中的缺陷识别方法方面不足。本研究提出了 MemoryMamba,一种新颖的记忆增强状态空间模型 (SSM),旨在克服现有缺陷识别模型的局限性。MemoryMamba 集成 - 一张图片胜过 500 个标签:Instagram 和 TikTok 本地机器学习模型中的人口统计差异案例研究
移动应用程序通过将数据处理移至用户的智能手机来保护用户隐私。利用先进的机器学习(ML)模型,如视觉模型,现在可以在本地分析用户图像以提取推动多种功能的见解。通过分析两个流行的社交媒体应用程序 TikTok 和 Instagram,揭示了(1 - 何时不需要更大的视觉模型?
通过多尺度较小模型的预训练与冻结,我们展示了其在多个图像尺度上能够超越较大的视觉模型,并证明了通过 S$^2$ 方法进行预训练可以与较大模型具有相当的学习能力。
- 预训练的视觉不确定性
准确的不确定性估计对可信赖的机器学习至关重要,本研究引入了视觉模型的首个预训练不确定性模块,类似于标准的预训练,这使得在大型预训练数据集上学习到的不确定性能够零样本迁移到专门的下游数据集,我们通过解决以前的不确定性模块中的梯度冲突并将训练加 - ICLR实现预训练模型在视觉地点识别中的无缝适应
利用预训练的模型实现可视化地点识别的平滑适应,既全局又局部地适应预训练模型,通过轻量级适配器调整以产生适用于地点匹配的全局和局部特征,并避免耗时的空间验证,在少量数据和训练时间下超过当前最先进方法,并仅使用两阶段地点识别方法运行时间的约 3 - 多线性专家混合模型:通过分解实现可扩展的专家专业化
通过使用 Multilinear Mixutre of Experts (MMoE) 层来缩放专家的数量,从而实现图像模型的细粒度特化,并通过定性和定量的证据证明了其与线性层具有相当的性能,同时进一步协助修正 CelebA 属性分类中的人口 - 基于实例的 SAM: 为多样化视觉任务构建开放世界模型
引入地面 SAM,使用地面化 DINO 作为开放目标检测器并结合分段任何模型(SAM),实现基于任意文本输入的任何区域的检测和分割,并打开了连接各种视觉模型的大门。
- 大规模自回归图像模型的可扩展预训练
这篇论文介绍了 AIM,一种根据自回归目标预训练的视觉模型集合。这些模型受到了文本模型的启发,并展现了类似的规模扩展性。重点提到两个关键发现:(1)视觉特征的性能随模型容量和数据量的增加而提高,(2)目标函数的价值与模型在下游任务上的性能相 - 语言辅助视觉模型调试器:一种无需样本的查找错误方法
通过语言辅助诊断方法,使用文本而非图像来诊断视觉模型中的错误,通过嵌入空间和共享分类器及跨模态迁移识别图像,验证了在水鸟和 CelebA 数据集上诊断现有视觉模型的能力。
- 机器视觉治疗:多模态大型语言模型通过去噪上下文学习增强视觉鲁棒性
我们提出了一种有效利用 MLLMs 进行机器视觉治疗的方法,通过与去噪标签进行微调,以无监督的方式提高学习模型的性能,并通过提出的 DICL 策略解决了 MLLMs 与视觉任务的兼容性问题。
- VIoTGPT: 针对智能视频物联网学习调度视觉工具
基于 LLMs 的框架 VIoTGPT 可以与人类正确互动、查询知识视频并调用视觉模型完成复杂任务,通过 ReAct 指令调优学习工具能力,定量和定性实验结果验证了 VIoTGPT 的有效性。
- Side4Video:用于内存高效的图像到视频迁移学习的时空边缘网络
提出了一种名为 Side4Video 的轻量级空时支路网络,用于在视频理解中对大型图像模型进行内存高效微调,具有比之前的适配器方法减少 75% 内存使用的能力,并且在各种视频数据集上实现了卓越的性能。
- ChessVision -- 逻辑连贯多标签分类的数据集
我们介绍了一个数据集,命名为 ChessVision 数据集,其中包含 200,000 + 张带有注释的象棋游戏进行中的图像,需要从图像中重新创建游戏状态,并附带一套约束以确保产生 “合理” 的游戏状态,同时还提出了用于衡量逻辑一致性的附加 - ICCV迭代集成归因的视觉解释
通过迭代整合属性(IIA)方法来解释视觉模型的预测,IIA 方法通过迭代整合输入图像、模型生成的内部表示以及它们的梯度,得到精确而聚焦的解释图。我们通过对各种任务、数据集和网络架构的综合评估验证了 IIA 的有效性,研究结果表明 IIA 产