多域地标检测的自适应查询提示
通过使用四元数网络,利用专用领域模型中的领域特定视觉特征引导通用上下文嵌入的转换来实现从通用化到专用化领域的有效识别能力转移,同时采用层次化方法生成视觉提示特征并分析层次化语言提示特征和领域专用视觉特征之间的互模态关系,从而实现在特定领域中有效挖掘互模态关系,促进领域特定的视觉语言对比学习,并通过在特定领域的数据集上进行广泛实验,证明我们的方法在提示学习方面取得了最新的最好的结果。
Dec, 2023
本文提出了一种名为多查询扩展的新框架,以通过使用潜在主题和协同过滤方法,检索语义上坚固的地标,实现从社交媒体中不同用户提供的具有不同几何信息的地标中检索类似地点的照片。
Jan, 2017
通过引入低成本提示调整范式来学习特定领域视觉提示,我们提出了一种新颖且模型无关的领域感知提示学习(DAP)框架,以在 VLN 任务中为预训练模型提供特定对象级和场景级跨模态对齐,并将领域内视觉知识以高效的方式注入预训练模型的视觉编码器。在 R2R 和 REVERIE 上的实验结果显示,DAP 相比现有的最先进方法具有明显的优势。
Nov, 2023
大规模视觉语言模型(VLMs)在自然视觉任务中表现出色,推动跨领域的研究者探索特定领域的 VLMs。然而,构建强大的特定领域 VLMs 需要大量的注释数据、大量的电能和计算资源,这些主要是工业界可用的,却制约了学术界对 VLMs 的研究。为了解决这个挑战,促进可持续和公平的 VLMs 研究,我们提出了广义领域提示学习(GDPL)框架。GDPL 通过小规模的特定领域基础模型和最少的提示样本,使 VLMs 的强大识别能力从自然视觉转移到特定领域,而无需大量数据或资源。通过四元网络,GDPL 利用特定领域的基础模型和最少的提示样本为语言分支赋予领域知识,揭示特定领域视觉特征与自然视觉上下文嵌入之间的跨模态关系。同时,GDPL 通过生成的视觉提示特征的分层传导,将视觉分支引向特定领域,建立与视觉语言关系匹配的基础。此外,为了充分发挥 VLMs 的领域自适应潜力,我们引入了一种新颖的低秩自适应方法。对遥感、医学成像、地质学、合成孔径雷达和流体动力学等不同领域的大量实验证明了 GDPL 的有效性,并展示了在提示学习范式下实现最先进的领域识别性能的能力。我们的框架为可持续和包容性的 VLMs 研究铺平了道路,消除了学术界与工业界之间的障碍。
May, 2024
提出了一种用于适应 Model-as-a-Service 预训练语言模型的多提示解码器(MPD)框架,在少数据情况下通过多个不同的提示查询语言模型,从而提高了解码的质量和数据的利用率,实验结果表明在多个自然语言理解数据集上取得了最新的最好效果。
Jun, 2024
本文旨在研究使用预训练语言模型(Pre-trained language models,PLMs)作为一个独立的模型来进行视觉语言推理任务。提出了一个名为 Dynamic Visual Prompting(DVP)的新型转移学习方法,通过搜索算法,在保持 PLMs 参数完整性的情况下,有效地将其与不同的视觉语言任务相结合。经过广泛的实验验证,DVP 在效率和性能方面都具有优势,并且能够很好地适应预训练语言模型与 VL 任务相结合的需求。
Jun, 2023
本文提出了一种基于多智能体强化学习的多个解剖标志点检测方法,使用 Deep Q-Network(DQN)架构构建环境和代理,并在训练过程中协作共享累积的知识,相较于现有技术方案,该方法将检测误差减少了 50%, 需要较少的计算资源和训练时间。
Jun, 2019
通过统一各种三维场景表示方法,使用可提示的查询(Promptable Queries)解决低级实例分割至高级推理与规划等广泛的三维视觉语言任务的统一模型(PQ3D)。在十个多样化的三维视觉语言数据集上进行测试,PQ3D 在这些任务中表现出令人印象深刻的性能,并在大多数基准测试中创造了新记录。
May, 2024
本文提出了一种新颖的无监督领域自适应学习范式 —— 通过提示学习的领域自适应 (DAPL),通过嵌入域信息和利用预训练的视觉 - 语言模型进行分类,此方法在多个领域的基准测试数据上表现优异,并且训练效率高、易于实现。
Feb, 2022