BriefGPT.xyz
大模型
Ask
alpha
关键词
image-text
搜索结果 - 4
生物医学视觉语言处理的大规模领域特定预训练
本文介绍了 BiomedCLIP 在生物医学视觉语言处理方面的应用,该方法针对生物医学 VLP 进行改进和优化,实验结果显示,BiomedCLIP 已成为标准数据集中广泛应用于检索、分类和视觉问答等任务的新的最佳模型,且在某些领域甚至胜过了
→
PDF
a year ago
通过最大化本地互信息来进行多模态表征学习
该研究提出并演示了一种利用图像和文本间局部特征的互信息最大化的表示学习方法,以此训练图像和文本编码器,使其表现出高局部互信息,实验结果显示该方法在图像分类任务中具有优势。
PDF
3 years ago
TAP: 面向 Text-VQA 和 Text-Caption 的文本感知预训练
本文提出了一种名为 TAP 的方法,通过使用光学字符识别引擎生成的图像文字来预训练模型,从而帮助模型在三种模态 —— 文本单词、视觉对象和场景文本中学习更好的对齐表示,在多个任务上均表现出卓越的性能。
PDF
4 years ago
通过对抗后向传播实现图像文本多模态表示学习
本文介绍了一种新的图像 - 文本多模态表示学习方法,该方法利用对抗学习概念进行多模态学习,不利用图像 - 文本对信息进行学习,只使用类别信息,其多模态特征的分布与利用图像 - 文本对信息进行学习的其他方法相比更为相似,并且具有通用的语义信息
→
PDF
8 years ago
Prev
Next