BriefGPT.xyz
Ask
alpha
关键词
vision language pre-training
搜索结果 - 3
基于物体对比学习的视觉 - 语言预训练技术在三维场景理解中的应用
本文提出了一种 3D 视觉语言预训练框架 3DVLP,可以在 3D 视觉语言下游任务中有很好的表现,该框架考虑了场景中物体的关联性,提出了多个任务来实现对象级交叉对齐和区分,与任务特定方法相比具有更好的泛化性能。
PDF
a year ago
使用视语言预训练模型提高医学语音转文本的准确性
提出一种基于 Vision Language Pre-training 方法的医疗方面的文本校正方法,以解决由于数据不足而难以开发医学领域的语音转文本模型的问题,并展示多模态理解图像和文本信息优于仅使用文本信息的单模态的性能。
PDF
a year ago
X$^2$-VLM:图像和语言任务的多功能预训练模型
这篇论文提出了一种名为 multi-grained vision language pre-training 的视觉语言联合预训练方法,它可以在多个粒度上学习视觉语言对齐。该论文还提出了一个名为 X$^2$-VLM 的预训练模型,它采用了模
→
PDF
2 years ago
Prev
Next