BriefGPT.xyz
Ask
alpha
关键词
visual cropping
搜索结果 - 2
视觉裁剪提升多模态大型语言模型的零指导问题回答
这项研究探讨了多模态大型语言模型在处理不同图像和问题属性时是否能够感知图像的细节,并表明它们在回答视觉问题的零样本准确性受到问题中视觉主体大小的敏感性,但通过人工裁剪可以显著缓解这种敏感性影响,并提出了三种自动图像裁剪方法用于改进多模态大型
→
PDF
8 months ago
使用视觉裁剪增强 BLIP 系模型对细节问题的回答
文章探讨将视觉切割技术用于改进最新的 BLIP 模型在细节问题上的表现,提出了三种测试方式,并进行了实验验证,结果表明,相较于人工切割,基于多模式嵌入的自动切割方法效果相似,同时发现对于零 - shot 模型和小边界框,效果更为显著,在 V
→
PDF
a year ago
Prev
Next