LaVy: 越南多模态大型语言模型
通过为越南语进行精细调整并开发了综合评估框架,我们发现精细调整的大型语言模型在越南语上表现出更好的理解和生成能力,并且模型规模和训练数据质量对模型的性能有重要影响。
Mar, 2024
通过探索更加信息丰富的训练数据,本文演示了击败规模定律并训练出更小但更强大的轻量级多模态大语言模型 Bunny,其背后利用了灵活的视觉和语言基础模块进行高效的多模态学习。
Feb, 2024
本研究介绍了 ViLLM-Eval,一个综合评估套件,用于衡量基于越南语背景下的基础模型的高级知识和推理能力,通过多项选择题和预测下一个单词的任务,评估了最先进的大语言模型在 ViLLM-Eval 上的表现,揭示了这些模型在理解和应对越南语任务方面仍有待改进的空间,该套件将有助于发现基础模型的关键优势和劣势,最终促进其发展并提升在越南用户中的性能。
Apr, 2024
在这份调研报告中,我们综述了当前高效多模态大语言模型(MLLMs)的研究状况,包括代表性的高效 MLLM 的时间线、高效结构和策略的研究现状以及应用领域。最后,我们讨论了目前高效 MLLM 研究的限制和有前途的未来方向。
May, 2024
我们提出了两种解决多模态模型创建训练数据方面的问题的有效方法,并基于这些方法构建了一个 91K 的英 - 韩 - 中多语言多模态训练数据集,并开发了一种双语多模态模型,在韩语和英语方面表现出优秀的性能,超过了现有方法。
Mar, 2024
提出了一种名为 Veagle 的新方法,通过在现有模型中增强多模态能力,利用动态机制将编码的视觉信息直接投射到语言模型中,从而在视觉问题回答和图像理解等任务中表现出具有显著优势的 5-6% 的改进。
Jan, 2024
我们介绍了 Xmodel-VLM,这是一款先进的多模态视觉语言模型,旨在在消费级 GPU 服务器上进行高效部署。我们的工作直接应对了一个关键行业问题,即解决了巨大规模多模态系统普及所面临的高昂服务成本限制。通过严格的训练,我们从头开始开发了一个 10 亿级的语言模型,采用了 LLaVA 模式用于模态对齐。结果是,我们称之为 Xmodel-VLM 的模型,它既轻量又强大。通过在多个经典多模态基准测试中进行了全面的测试,我们发现尽管模型体积较小且执行速度更快,但 Xmodel-VLM 的性能与较大模型相当。我们的模型检查点和代码公开在 GitHub 上提供。
May, 2024
通过对具有多模态能力的 LLM 和 MM-LLM 的当前状况进行广泛回顾,本文涵盖了 LLM 的历史发展、注意力机制在提升模型性能方面的作用,以及 Fine-tuning 和 prompt engineering 等模型调整技术。同时还分析了伦理考虑和挑战,并讨论了开源和专有模型在 AI 研究中的影响。通过这个综述,我们揭示了 MM-LLM 在各种应用中的转型潜力。
Mar, 2024
本研究提出了混合模态适应方法(MMA),它采用轻量级的适配器模块来搭建 LLMs 和 VL 任务之间的桥梁,实现图像和语言模型的联合优化,同时具有自适应切换单模和多模指令的功能。该方法被应用于 LaBIn 大型视觉语言指导模型,并在两种场景下进行了实验验证,表明其训练效率和性能竞争力均优于现有多模 LLMs,且具有成为通用聊天机器人的潜力。
May, 2023