Sep, 2024

Qwen2-VL:在任何分辨率下增强视觉-语言模型对世界的感知

TL;DR本文提出了Qwen2-VL系列,这是对之前Qwen-VL模型的高级升级,解决了视觉处理中的预定分辨率方法的局限。该研究引入了动态分辨率机制,能够高效处理不同分辨率的图像,生成更准确的视觉表示,并实现了文本、图像和视频之间的有效信息融合。此外,Qwen2-VL系列在多模态基准上表现优异,与领先模型如GPT-4o和Claude3.5-Sonnet相媲美。