BriefGPT.xyz
大模型
Ask
alpha
关键词
multi-modal classification
搜索结果 - 4
CLIP 中的语言增强技术对多模态医学图像的改进解剖检测
使用多模态的医学影像,利用视觉语言模型 (CLIP) 自动生成整体身体的标准化分区和器官列表,相较于基线模型 (PubMedCLIP),提高性能达到 47.6%。
PDF
a month ago
MM
关于模态偏差的识别和减少
本文研究了在多模态分类系统中影响模型性能的模态偏差问题,通过构建两个基于 Out-of-Distribution 协议的数据集和提出一种自适应的 plug-and-play 损失函数方法,在彩色数字识别、视频动作识别和视觉问答三个任务上实现
→
PDF
2 years ago
CVPR
Omnivore: 许多视觉模式的单个模型
该研究提出了一种基于 Transformer 的 'Omnivore' 模型,使用相同的模型参数在图像、视频、单视角 3D 数据上进行多模态分类,达到与性能同等或更好的效果,并自然地实现了跨模态识别。
PDF
2 years ago
AAAI
高效大规模多模态分类
本文研究多模态分类问题,其中一种模态是离散的文本,另一种模态是连续的视觉表示,我们针对需要快速分类大量数据的情况进行分析,提出了多种方法进行多模态融合,并分析了它们在分类精度和计算效率上的权衡。结果表明,连续信息的引入可以有效提高多模态分类
→
PDF
6 years ago
Prev
Next