vision-language pretraining | BriefGPT

关键词vision-language pretraining

搜索结果 - 19

面向视觉 - 语言模型的跨模态向后兼容表示学习
本文提出了一种名为 “Cross-modal BT (XBT)” 的方法，通过引入一个经过预训练的投影模块来解决视觉 - 语言预训练模型（如 CLIP）的向后兼容问题，有效降低了跨模态训练所需的图像 - 文本对数量并提高了效率，实验结果显示
PDFa month ago
自然语言有助于缩小 Sim2Real 鸿沟
通过使用自然语言描述图像作为统一的信号来捕捉底层的任务相关语义，我们提出了一种方法来解决在学习图像条件机器人策略时所面临的模拟与真实世界之间的视觉差距问题，该方法通过对大量模拟数据和少量真实演示进行同时训练，将图像编码器作为无域变迁的图像表
PDF2 months ago
深度学习表示的自监督视觉语言对骨 X 射线分析的对齐
该研究提出了利用骨骼 X 射线与法语报告的视觉语言预训练来解决骨 X 射线影像学的下游任务。提出了一个实用的处理流程来对法国医学报告进行匿名化和处理。预训练包括来自深度模型编码器的视觉和文本嵌入空间的自我监督对齐。结果的图像编码器用于处理各
PDF2 months ago
增强图像检索：基于 CLIP 模型的照片搜索的全面研究
CLIP 模型是基于文本查询的图像检索的重要进展，通过在大规模数据集上进行训练获得显著的泛化能力，实现了图像和文本的跨模态理解，促进了自然语言理解和计算机视觉的无缝集成，为多媒体应用中的信息检索提供了强大的工具。
PDF5 months ago
临床准确且可解释的双向字幕模型
本研究通过双向字幕法对放射学报告进行预训练，与对比性训练方法相比，表明字幕法预训练不仅可以产生具有竞争力的视觉编码器，还可以生成具有临床相关性的报告和针对性的交互性输出。
PDF8 months ago
ICCVCTP: 基于兼容的动量对比和拓扑保持的视觉 - 语言持续预训练
通过研究视觉 - 语言持续预训练（VLCP）的特征和挑战，我们提出一种名为 CTP 的新算法，即兼容动量对比与拓扑保持。该方法不仅在性能上优于其他基线模型，而且不会带来昂贵的训练负担。
PDFa year ago
DocumentCLIP：连结重排版文档中的图片与正文
本文提出了一种基于 DocumentCLIP 的显著性感知对比学习框架，旨在加强视觉 - 语言预训练模型理解文本内图像与长文本相互作用，并且该模型可用于新闻文章、杂志和产品描述等语言和视觉丰富的内容的实际多模态文本理解。该框架采用自己收集的
PDFa year ago
基于生成式文本引导的三维视觉语言预训练，用于统一医学图像分割
本研究提出了一种 3D 医学图像的方法 —— 生成式文本引导 3D 视觉语言预训练。研究在 Computed Tomography (CT)、Magnetic Resonance Imaging (MRI) 和电子显微镜 (EM) 图像数据
PDFa year ago
CVPRVILA：利用视觉语言预训练学习用户评论中的图像美学
提出一种基于用户评论的图像审美预测方法，使用视觉 - 语言预训练模型学习图像的审美表现，结合排名适配器模块设计了一种高效的模型适配方法。实验结果表明，该模型在图像美学字幕生成、零样本风格分类和零样本图像审美评价等任务上表现良好，达到了预先训
PDFa year ago
CVPR使用自由语言建模加速视觉语言预训练
本研究提出了一种新的预训练任务：自由语言建模 (FLM)，它通过自定义每个预测令牌的污染范围解决了掩码语言建模 (MLM) 中预测率和污染率之间的问题，成功地将预测率从污染率的捆绑中解放出来，从而加速了视觉 - 语言预训练的收敛速度，减少了
PDFa year ago
加强上下文在区域词对齐中的作用以进行目标检测
本研究探索语言上下文对目标检测的影响，并提出了一种增强上下文作用的方法，特别是属性等语境，以提高区域 - 词对齐性能。该方法在区域 - 词预训练方面超越了最先进技术，并通过文本 - 区域检索和短语命名分析展示了属性敏感模型的细粒度实用性。
PDFa year ago
AAAI使用单塔 Transformer 统一视觉与语言表示空间
本文提出了一种新的多模态表示学习框架 OneR，该框架可以将图像和标题简单地视为底层相互信息的两种不同视角，并统一地编码两种模态。通过对其进行全面评估，结果表明该框架具有潜在的高效性。
PDF2 years ago
VL-CheckList：使用对象、属性和关系评估预训练的视觉语言模型
介绍了一种名为 VL-CheckList 的框架来评估 VLP 模型的能力，进而分析了七种热门 VLP 模型的优劣之处，并提出了构建更好的 VLP 模型的研究方向。
PDF2 years ago
MMGLIPv2: 统一定位和视觉语言理解
GLIPv2 是一个基于视觉语言的预训练模型，将定位预训练与语言视觉预训练相结合，并具有短语地基、区域 - 单词对比学习和遮蔽语言建模三个预训练任务。该模型在各种定位和理解任务上表现接近最好的水平，同时也显示了强的零件和少量样本识别性能，以
PDF2 years ago
ECCV视觉语言预训练的单流多级对齐
利用对比损失进行的自监督视觉 - 语言预训练虽然有效，但由于双流体系结构仅在全局层面上对齐图像和文本表示法，因此忽略了细粒度对齐。本文提出了一种单通道体系结构，使用两个新任务在多个层次（即全局、细粒度图块 - 令牌和概念 / 语义层次）上对
PDF2 years ago
CLIP-Event: 连接文本和图像的事件结构
本文提出了一种对视觉语言预训练模型进行对事件及相关参数角色理解的对比学习框架，并结合文本信息提取技术，利用多个提示函数来构造事件结构，设计基于最优传输的事件图形对齐损失来捕获事件参数结构，通过无监督学习进行预训练，并在零样本的情况下取得了优
PDF2 years ago
EMNLP视觉语言领域数据效率掩码语言建模
本文研究在跨模态预训练中使用遮蔽语言建模（Masked Language Modeling，简称 MLM）的一些问题，提出了一些针对这些问题的替代遮蔽策略，在 LXMERT 模型预训练时，我们的替代策略始终优于原始遮蔽策略，特别是在低资源设
PDF3 years ago
ICLRSimVLM：简单的弱监督视觉语言模型预训练
本文提出了一种简约的视觉语言模型（Simple Visual Language Model）普及方法，使用大规模的弱监督数据，通过单一前缀语言建模目标进行端到端训练，并在不利用额外数据或任务特定的定制的情况下，在广泛的辨别和生成性视觉语言基
PDF3 years ago
AAAI基于解耦式编码 - 解码网络的视觉 - 语言预训练中的定时采样
本文提出了一种两流解耦设计的编码器 - 解码器架构，使用预训练的编码器 - 解码器结构进行同时视觉语言理解和生成预训练，使用预训练策略优化编码器和解码器，具有良好的泛化性能。
PDF3 years ago