VIALM: 视力障碍者辅助的大模型调查和基准
本研究探讨如何利用多模态大型语言模型(MLLMs)帮助视觉障碍(VI)人士提供视觉问题的答案,并介绍了 VIAssist,一种能够识别不受欢迎图像并提供详细操作建议,并基于这些图像提供可靠答案给用户的方法。实验结果表明,VIAssist 相对于基准方法,在 BERT 得分和 ROUGE 得分上分别提高了 0.21 和 0.31。
Apr, 2024
综述了大语言模型与视觉语言模型的最新进展,分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性,并提出未来研究的潜在方向。
Feb, 2024
利用大型语言模型和视觉语言模型,我们的研究致力于解决数字助理执行各种用户任务的挑战,特别是在基于指令的移动设备控制领域。通过与用户界面进行交互,我们的模型利用设备屏幕的视觉输入并模拟人类般的交互,包括点击和滑动等手势。这种输入和输出空间的广泛适用性使得我们的代理能够与设备上的任何应用程序进行交互。与以往方法不同的是,我们的模型不仅仅操作单个屏幕图像,还通过过去截图序列和相应操作生成视觉语言句子。在具有挑战性的 “Android in the Wild” 基准测试中评估我们的方法表明其有效性和潜力。
Apr, 2024
该研究提出了 ViLaM,一个统一的视觉 - 语言转换模型,通过集成基于大型语言模型的指令调整,能够在包括语言和视觉的一系列任务中最佳利用大型预训练语言模型的知识和推理能力,从而在医学图像分析等复杂视觉任务中取得了非凡的表现,并展示了其令人印象深刻的零样本学习能力,表明 ViLaM 在医学领域具有潜在的未来应用。
Nov, 2023
提出了一种名为 VaLM 的预训练框架,对语言建模进行视觉增强,通过图像检索模块检索相应图像,使用视觉知识融合层使多模态语言建模可以参考文本和图像的视觉知识,并在需要的情况下获取相关联的图片,通过对各种视觉知识密集型的常识推理任务的评估,展示了 VaLM 在推理对象的常识,包括颜色、大小和形状方面的性能优于强语言和视觉语言基线。
May, 2022
通过自动数据整理和评估,利用优秀的语言模型和视觉语言模型衡量对齐 VLMs 与人类智能的能力,我们提出了 Auto-Bench 作为一个灵活、可扩展和全面的评估 benchmark。
Nov, 2023
在这项研究中,我们对 ChatGPT、LLaVA、Gemini 和 SAM 进行了分类、分割、计数和 VQA 任务,发现 ChatGPT 和 Gemini 能够令人印象深刻地理解显微镜图像中的视觉特征,而 SAM 则在一般情况下具备分离伪影的能力,但性能还不如领域专家 - 这些模型在图像中存在的杂质、缺陷、伪影重叠和多样性的引入会给其带来困扰。
May, 2024
大视觉语言模型在专业任务和通用任务中的效能进行综合评估,发现它们在专业任务和通用任务中均表现有限,可能的因素包括专业任务认知有限、物体幻觉、文本与图像的干扰以及在复杂问题中的鲁棒性降低。
Mar, 2024
使用大型语言模型和多模态语言模型,我们开发了一种方法将特定领域的视觉和视觉 - 语言数据集转化为统一的问答格式,从而扩展了多模态语言模型用于特定领域任务,实验结果表明该方法在特定领域的视觉任务和视觉 - 语言任务上达到了高分数指标并保持了多任务的性能。
Feb, 2024
通过自我改进提高视觉与语言模态的对齐性的 SIMA 框架在 14 个幻觉和综合基准测试中展示了改进模型性能和优越的模态对齐,超过了先前的方法。
May, 2024