BriefGPT.xyz
Ask
alpha
关键词
mllm
搜索结果 - 4
跨域少样本情境学习用于提升交通标志识别能力
本研究基于多模态大型语言模型(MLLM)提出了一种跨域少样本上下文学习方法,用于增强交通标志识别(TSR)的性能,并通过生成相应描述文本来改善 MLLM 对交通标志的细粒度分类能力。实验结果表明,该方法显著提高了 TSR 的性能。
PDF
3 days ago
TokenPacker: 多模态 LLM 的高效视觉投影器
我们提出了一种新的视觉投影仪,采用粗细方案,通过注入丰富的特征生成压缩的视觉标记,并实现了更高的效率。
PDF
9 days ago
VIEScore:面向条件图像合成评估的可解释度量
本文介绍了 VIESCORE,这是一种视觉指导的可解释度度量指标,用于评估任何条件图像生成任务。VIESCORE 利用多模态大语言模型(MLLMs)的通用知识作为支撑,无需训练或微调。在七项著名的条件图像任务上评估 VIESCORE,我们发
→
PDF
7 months ago
大型语言模型为文本丰富的 VQA 带来的优势
基于文本识别的图像视觉问答是一个跨模态任务,需要图像理解和文本识别。本文研究了基于 LLM 方法在解决此问题时的优势和瓶颈,并通过整合 OCR 模块和 MLLM 发现多数 MLLM 可以理解 OCR 信息,为训练保留 LLM 能力提供了启示
→
PDF
8 months ago
Prev
Next