- 利用机器学习统一分子筛膜和金属有机骨架材料中的混合气体吸附
利用机器学习模型,通过气体混合物和吸附剂的物理特性向量,准确预测可炭分子筛膜内的单一和混合气体在聚合物和金属 - 有机框架两种类别材料中的吸附趋势,并提供预测复杂吸附过程的新方法。
- ICML探索使用混合低秩适配器训练异构数据
通过采用低秩适配器的混合方法 (MoLA) 来训练统一模型以应对来自不同领域或任务的异构数据,以解决多目标的训练冲突,实现人工智能的整体性。实验表明,MoLA 优于先前的最先进方法,并对其工作机制进行了深入分析。
- 通过提问实现三维视觉与语言理解的统一化
通过统一各种三维场景表示方法,使用可提示的查询(Promptable Queries)解决低级实例分割至高级推理与规划等广泛的三维视觉语言任务的统一模型(PQ3D)。在十个多样化的三维视觉语言数据集上进行测试,PQ3D 在这些任务中表现出令 - 统一动态扫视路径预测器优于单独训练模型
通过深度学习的社交线索整合模型,我们开发了一个视频中注视预测的模型,通过递归地整合注视历史和社交线索来学习注视路径,以填补以往只关注群体模型而忽视了个体差异的研究空白。我们观察到这种单一统一的模型通过整合普遍关注和个体化注意力行为的方式在注 - DMAD:面向现实世界异常检测的双重内存库
通过使用统一的模型,提出了一种名为 Dual Memory bank enhanced representation learning for Anomaly Detection (DMAD) 的新框架,该框架处理了无监督和半监督场景,通过 - CVPRMedM2G:通过视觉不变性的交叉引导扩散实现医学多模态生成的统一
MedM2G 是一个医疗多模态生成框架,通过统一的模型实现医疗多模态对齐、提取和生成,以及在医疗诊断中提升特定医疗信息和灵活的多模态交互,成功完成了文本到图像、图像到文本和医学模态的统一生成任务,并在 10 个数据集上持续领先于各种最先进的 - 通过提示实现任意分词
我们提出了一个统一的、可提示的模型,能够同时分割、识别和描述任何物体。与 SAM 不同的是,我们通过视觉提示在野外构建多用途区域表示。我们使用来自具有 50 亿参数的经过预训练的 CLIP 模型的大规模分割掩码,例如 SA-1B 掩码,和语 - Uni3DL: 三维和语言理解的统一模型
Uni3DL 是一个统一的 3D 和语言理解模型,它运用于点云而不是传统的多视图图像,实现了对多种 3D 任务的支持,包括语义分割、目标检测、实例分割、视觉定位、3D 字幕和文本 - 3D 跨模态检索,并且在性能上超过了最先进的特定任务模型 - JPPF: 多任务融合一致的全景部分分割
我们提出了一种联合全景部分融合(JPPF)方法,它通过有效地结合三种单独的分割方法来获得全景 - 部分分割,该方法具有统一的模型,平衡的组合,可以在多个数据集上进行通用化评估。
- SAM-CLIP:融合视觉基础模型实现语义和空间理解
我们提出了一种简单的方法,将视觉基础模型(如 CLIP 和 Segment Anything Model)高效地合并成一个统一的模型,以便于边缘设备应用,并能够在广泛的视觉任务中学习富含定位和语义特征的更丰富的视觉表示,同时在零样本语义分割 - 一对多:面向所有分类任务的单一图模型训练
通过引入文本属性图和节点感兴趣的概念以及新颖的图提示范式,我们提出了全称为 One for All (OFA) 的通用框架,使得单个图模型能够处理多样的图学习任务,并在不同的领域表现出色。
- AnyMAL: 一种高效且可扩展的任意模态增强语言模型
我们提出了 Any-Modality Augmented Language Model (AnyMAL),这是一个统一模型,可以对多样化的输入模态信号(文本、图像、视频、音频、IMU 运动传感器)进行推理,并生成文本回复。AnyMAL 继承 - ICCV视频任务百项全能:在自动驾驶中统一图像和视频任务
通过设计统一模型 VTDNet 和挑战集 Video Task Decathlon (VTD),并且采用 Curriculum training, Pseudo-labeling 和 Fine-tuning (CPF) 训练方案,本研究在自 - 任务条件下的 BERT 联合意图检测和词槽填充
通过在多个任务上训练基于 Transformer 编码器的统一模型,并借助富输入在目标推理上对模型进行条件化,本文探索了解决对话系统中用户意图的不可预测性和插槽的异构性的假设,并表明将模型条件化于对同一语料库上的多个推理任务,如意图和多个插 - 图像、视频、音频和语言任务的统一模型
通过 UnIVAL 统一模型,可以有效地支持图像、文本、视频和音频等多种模态任务,并通过模型权重插值实现多模态模型融合,展示其在特定领域的分布外泛化能力。
- 用对比学习增强统一流式和非流式模型
本论文通过对比目标法,缩小流式模式和非流式模式间的固有差距,提高了统一模型的准确性,在 AISHELL-1 基准测试中达到了 CER 值 4.66%(流式模式)和 4.31%(非流式模式),创造了新的最高记录。
- L-CAD: 基于语言的任意级别描述着色
本文提出了一种利用自然语言描述进行基于语言的彩色生成,通过与预训练的跨模态生成模型相结合,实现了对任意级别的颜色描述的处理,能够有效处理复杂环境下的样例感知着色。
- COSST:利用综合监督和自我训练进行部分标记数据集的多器官分割
本文提出了一种名为 COSST 的新型训练框架,通过自我训练有效而高效地集成多种监管信号,并通过潜在空间的异常检测来减轻伪标签的性能下降,进而在各种分割任务中实现了显着的性能改进。
- MPMQA:产品手册上的多模态问答
通过构建大规模的带有人工注释的 PM209 数据集,本研究提出了一个多模态产品手册问答(MPMQA)任务,其要求模型处理多模态内容并提供多模态答案,并进一步提出了一种统一模型,可以同时执行这两个子任务,并实现与多个任务特定模型相当的性能。
- CVPRFreeSeg: 统一、通用和开放词汇库的图像分割
本文提出了一种通用框架 FreeSeg,通过一次训练优化全一体网络,并采用相同的架构和参数在推理过程中无缝处理各种分割任务。此外,自适应提示学习有助于统一的模型捕捉任务感知和类别敏感概念,在多任务和各种场景中提高模型鲁棒性。大量实验结果表明