DeViL: 将视觉特征解码为语言
在胸片 X 光的视觉语言预训练方面取得了显著进展,主要通过利用配对的放射照片和放射学报告。为了解决医学知识编码的挑战,我们提出了一种新颖的基于 Transformer 的方法 DeViDe,它利用来自开放网络的放射照片描述。DeViDe 将具体定义和放射学报告与开放网络中疾病的通用视觉特征相结合,提供了对知识的整体快照。在零样本设置下,DeViDe 在外部数据集上表现出与全监督模型相当的性能,并在三个大规模数据集上达到了最先进的结果。另外,将 DeViDe 在四个下游任务和六个分割任务上微调,展示了其在不同分布的数据上优越的性能。
Apr, 2024
该论文研究了使用 Transformer 模型的大规模预训练模型在图像与语言(V+L)方面的应用,通过评估和探索内部机制,提供了关于多模式预训练及其注意力头的启示和指导。
May, 2020
Perceiver-VL 是一个高效处理大量视觉和语言输入的框架,采用迭代潜在跨注意力技术,具有线性可扩展性和高效性,并在保持其竞争力能力的同时,在各种基准测试中取得最佳结果。
Nov, 2022
最近,大型语言模型的显著进展激发了研究人员将其非凡的推理能力转移到多个模态的数据上。本文通过在统一的表示中同时表达视觉和语言,突破了仅以视觉内容作为提示并专注于优化文本生成过程的限制。通过一个将非语言图像转换为 LLM 可以阅读的一系列离散标记的视觉分词器,LaVIT (Language-VIsion Transformer) 可以在统一的生成学习范式下无差别地处理图像和文本。在网上规模图像 - 文本语料库上预训练的 LaVIT 具有令人印象深刻的多模态理解能力。广泛的实验表明,它在下游任务上的性能超过现有模型很多。我们的代码和模型将在此 https URL 上提供。
Sep, 2023
该研究提出了 ViLaM,一个统一的视觉 - 语言转换模型,通过集成基于大型语言模型的指令调整,能够在包括语言和视觉的一系列任务中最佳利用大型预训练语言模型的知识和推理能力,从而在医学图像分析等复杂视觉任务中取得了非凡的表现,并展示了其令人印象深刻的零样本学习能力,表明 ViLaM 在医学领域具有潜在的未来应用。
Nov, 2023
该论文提出了一种新的方法,使用 Prompt-Transformer 模型,基于语言数据而不是图像 - 文本配对来预测理想 prompts,从而优化了资源密集型视觉语言预训练过程,提高了大语言模型的性能。
Jul, 2023
LaViSE 提出了一个新的方法,可以在不依赖于任何数据集的前提下,在指定层级产生数据语义化描述,并通过它的模块化结构来方便任何训练完毕的模型的分析,如 CNN 等。并通过这种方法来检测出隐藏的数据集偏见或比较不同子集。
Apr, 2022
DiMBERT 是一个新的框架,利用分离的注意力空间对多模态信息进行处理,在引入视觉概念的同时,在文本格式中表示视觉信息,从而加强对视觉和语言之间关联的捕捉,可以用于图像描述,视觉叙事和指称表达的分类任务,并可以轻松的集成到现有的视觉和语言模型中以提高性能。
Oct, 2022
通过多模态的视觉 - 语言基础模型作为一种视角,本文提出了一种逻辑规范语言 Con_spec,用于在这些模型的高级人类可理解概念描述的基础上编写规范并进行形式验证,通过采用 VLM 实现自然语言性质的编码和高效检查,以 ResNet 为基础的分类器在 RIVAL-10 数据集上进行的实验验证了我们的技术。
Mar, 2024
我们引入了一种多模态神经机器翻译模型,其中双重注意力解码器自然地整合了使用预先训练的卷积神经网络获取的空间视觉特征,弥合了图像描述和翻译之间的差距。我们的解码器通过两个独立的注意机制在生成目标语言单词时独立地关注源语言单词和图像的部分。我们发现我们的模型不仅可以高效地利用反向翻译的域内 多模态数据,还可以利用大规模的通用领域文本翻译语料库。我们还在 Multi30k 数据集上报告了最先进的结果。
Feb, 2017