LaVy: 越南多模态大型语言模型

Apr, 2024

LaVy: Vietnamese Multimodal Large Language Model

Chi Tran, Huong Le Thanh

TL;DR通过引入 LaVy 和 LaVy-Bench，我们在解决高质量多模式资源缺失的情况下，开创性地推进了越南语多模式大型语言模型的发展。

Abstract

large language models (LLMs) and Multimodal large language models (MLLMs) have taken the world by storm with impressive abilities in complex reasoning and linguistic comprehension. Meanwhile there are plethora of

large language models multimodal large language models vietnamese large language models lavy lavy-bench

发现论文，激发创造

跨越语言的视角：越南大型语言模型的微调和全面评估

通过为越南语进行精细调整并开发了综合评估框架，我们发现精细调整的大型语言模型在越南语上表现出更好的理解和生成能力，并且模型规模和训练数据质量对模型的性能有重要影响。

Mar, 2024

基于数据中心视角的高效多模态学习

通过探索更加信息丰富的训练数据，本文演示了击败规模定律并训练出更小但更强大的轻量级多模态大语言模型 Bunny，其背后利用了灵活的视觉和语言基础模块进行高效的多模态学习。

Feb, 2024

ViLLM-Eval：越南大型语言模型的综合评估套件

本研究介绍了 ViLLM-Eval，一个综合评估套件，用于衡量基于越南语背景下的基础模型的高级知识和推理能力，通过多项选择题和预测下一个单词的任务，评估了最先进的大语言模型在 ViLLM-Eval 上的表现，揭示了这些模型在理解和应对越南语任务方面仍有待改进的空间，该套件将有助于发现基础模型的关键优势和劣势，最终促进其发展并提升在越南用户中的性能。

Apr, 2024

高效多模态大型语言模型综述

在这份调研报告中，我们综述了当前高效多模态大语言模型（MLLMs）的研究状况，包括代表性的高效 MLLM 的时间线、高效结构和策略的研究现状以及应用领域。最后，我们讨论了目前高效 MLLM 研究的限制和有前途的未来方向。

May, 2024

X-LLaVA: 优化双语大型视觉语言对齐

我们提出了两种解决多模态模型创建训练数据方面的问题的有效方法，并基于这些方法构建了一个 91K 的英 - 韩 - 中多语言多模态训练数据集，并开发了一种双语多模态模型，在韩语和英语方面表现出优秀的性能，超过了现有方法。

Mar, 2024

多模式大型语言模型综述

本文旨在追踪和总结 MLLM 的最新进展，包括 MLLM 的公式，技术和应用，以及现有的挑战和有前途的研究方向。

Jun, 2023

Veagle: 多模态表征学习的进展

提出了一种名为 Veagle 的新方法，通过在现有模型中增强多模态能力，利用动态机制将编码的视觉信息直接投射到语言模型中，从而在视觉问题回答和图像理解等任务中表现出具有显著优势的 5-6% 的改进。

Jan, 2024

Xmodel-VLM: 一个简单的多模态视觉语言模型基准

我们介绍了 Xmodel-VLM，这是一款先进的多模态视觉语言模型，旨在在消费级 GPU 服务器上进行高效部署。我们的工作直接应对了一个关键行业问题，即解决了巨大规模多模态系统普及所面临的高昂服务成本限制。通过严格的训练，我们从头开始开发了一个 10 亿级的语言模型，采用了 LLaVA 模式用于模态对齐。结果是，我们称之为 Xmodel-VLM 的模型，它既轻量又强大。通过在多个经典多模态基准测试中进行了全面的测试，我们发现尽管模型体积较小且执行速度更快，但 Xmodel-VLM 的性能与较大模型相当。我们的模型检查点和代码公开在 GitHub 上提供。

May, 2024

多模态大型语言和视觉模型综述

通过对具有多模态能力的 LLM 和 MM-LLM 的当前状况进行广泛回顾，本文涵盖了 LLM 的历史发展、注意力机制在提升模型性能方面的作用，以及 Fine-tuning 和 prompt engineering 等模型调整技术。同时还分析了伦理考虑和挑战，并讨论了开源和专有模型在 AI 研究中的影响。通过这个综述，我们揭示了 MM-LLM 在各种应用中的转型潜力。

Mar, 2024

Cheap and Quick: 大型语言模型高效的视觉语言指导调整

本研究提出了混合模态适应方法（MMA），它采用轻量级的适配器模块来搭建 LLMs 和 VL 任务之间的桥梁，实现图像和语言模型的联合优化，同时具有自适应切换单模和多模指令的功能。该方法被应用于 LaBIn 大型视觉语言指导模型，并在两种场景下进行了实验验证，表明其训练效率和性能竞争力均优于现有多模 LLMs，且具有成为通用聊天机器人的潜力。

May, 2023