- 将多模态大型语言模型适应长尾开放世界中的概念漂移
本文研究了长尾的开放世界情景对多模态大语言模型的影响,提出了一种统一框架来解决由长尾问题、尾漂移和分布漂移导致的偏差,并在视觉语言模型的预训练中改善了图像 - 文本对齐的效率和准确性。
- 政策梯度驱动的噪声遮罩
本研究提出了一种学习生成特定噪声遮罩的预训练流程,旨在改善在多模态和多器官数据集上的性能,实验证明中间模型的微调能够在分类和概念任务上持续优于传统训练算法。
- CVPR冻结大型语言模型在视觉信号理解中的应用
我们研究了大型语言模型(LLM)在没有对多模态数据集进行微调的情况下,直接理解视觉信号的潜力。我们提出了一种视觉到语言的分词器(V2T Tokenizer),通过编码器 - 解码器、LLM 词汇表和 CLIP 模型将图像转换成 “外语”。通 - 部分联邦学习
我们提出了一种名为 Partial Federated Learning (PartialFL) 的新算法,该算法使用一部分数据模态或其中间表示来训练机器学习模型,并通过禁止数据标签传送到云端进行模型训练以提高隐私保护效果,我们在两个不同的 - 朝着自然语言引导的无人机:带有空间关系匹配的 GeoText-1652 基准
无人机通过自然语言命令导航仍然是一个重要的挑战,该研究通过 GeoText-1652 数据集和空间关系匹配的优化目标,展示了利用自然语言命令提升无人机控制和导航的潜力。
- ICCV保留模态结构改善多模式学习
通过语义 - 结构保持一致性方法,在大规模多模态数据集上进行自监督学习,保留联合多模态表示空间中包含的模态特定关系以提高泛化性能。
- ICCVCTP: 基于兼容的动量对比和拓扑保持的视觉 - 语言持续预训练
通过研究视觉 - 语言持续预训练(VLCP)的特征和挑战,我们提出一种名为 CTP 的新算法,即兼容动量对比与拓扑保持。该方法不仅在性能上优于其他基线模型,而且不会带来昂贵的训练负担。
- 利用文本和数值数据流的多模态深度学习进行信用评级预测
本研究对于公司信用评级的深度学习模型进行结构化数据和非结构化数据的多模态融合,其中以卷积神经网络为基础的模型与两种融合策略的效果最佳;此外,我们还发现更复杂的深度学习模型未必能够带来最好的性能,然而,如果注意力机制为性能最佳,那么交叉注意力 - CVPR准确的几何数据对于密集三维视觉任务的重要性
本研究探讨了使用传感器数据进行密集型三维视觉问题的解决方法,强调了传感器特性对学习预测的重大影响,通过设计了一个多模态数据集,量化了传感器噪声的影响并为改善密集型视觉估计和有针对性的数据融合铺平了道路。
- IJCAISHAPE:一种统一方法评估个体模态的贡献和合作
本文主要介绍了一种基于 SHAPLEY 值的 PErceptual(SHAPE)得分,该得分可以测量单个模态的边际贡献和跨模态合作程度以及如何在不同任务的不同多模态数据集上系统地评估不同的融合方法,最终结果表明对于一些任务,在不同模态互补的 - 数据卡片:负责任人工智能的有目的和透明的数据集文档
本文提出了数据卡片 (Data Cards) 的概念以促进人性化的大规模模型开发过程中透明、有目的性和人性化的数据记录方法,数据卡片是必要的用户文档,提供关于机器学习数据各个方面的基本事实的结构化总结。本文描述了将数据卡片落实到实际应用的多 - 社交媒体视频帖子中的虚假信息检测
本研究提出了两种新方法:对比学习和掩码语言建模,以检测短视频社交媒体帖子中的语义不一致性,证明这些方法优于当前的最先进方法,可用于检测社交媒体帖子中的错误信息。
- 感知得分:您的模型感知哪些数据模态?
本文提出了感知分数的概念,通过该指标对多模态数据集中的各种输入特征进行评估,发现最新的视觉问答或视觉对话多模态模型相较于它们的先驱越来越少重视视觉数据,这趋势引起了担忧,需要对此展开讨论并提出解决思路。
- ICCV稀疏到密集特征匹配:基于域自适应的交叉模态学习用于 3D 语义分割
本文提出了一种基于跨模态学习的动态稀疏到稠密的交叉模态学习和在包含不同语义内容的 2D 和 3D 数据上进一步改进交叉模态对抗性学习,以大幅提高各种多模态领域自适应设置上的性能。
- 基于交叉模态学习的三维语义分割领域自适应
本文介绍了一种新的领域适应策略 - “交叉模态学习”,在无监督和半监督领域适应设置下,通过两种模式的相互模仿实现模态之间的一致性,在 3D 语义分割任务中证明了该方法的有效性
- 通过最大化函数熵进行正则化以消除多模态分类器中的偏差
本研究提出了一种新的基于功能熵的正则化项,以平衡每种模态对分类结果的贡献,并在多个数据集上取得了最先进的结果。
- ICML对生成模型评估中的精确度和召回率定义的重新审视
重新定义 Sajjadi 等人提出的生成模型的 Precision-Recall curves,推广到任意度量,建立 PR curves 和似然比分类器的 type I 和 type II error rates 之间的联系,并提出新算法近