通过将多模态视为外语来引导先进的大型语言模型
我们提出了两种解决多模态模型创建训练数据方面的问题的有效方法,并基于这些方法构建了一个 91K 的英 - 韩 - 中多语言多模态训练数据集,并开发了一种双语多模态模型,在韩语和英语方面表现出优秀的性能,超过了现有方法。
Mar, 2024
通过对具有多模态能力的 LLM 和 MM-LLM 的当前状况进行广泛回顾,本文涵盖了 LLM 的历史发展、注意力机制在提升模型性能方面的作用,以及 Fine-tuning 和 prompt engineering 等模型调整技术。同时还分析了伦理考虑和挑战,并讨论了开源和专有模型在 AI 研究中的影响。通过这个综述,我们揭示了 MM-LLM 在各种应用中的转型潜力。
Mar, 2024
本文系统地研究了大型语言模型在多语言机器翻译中的优势和挑战,并在 102 种语言上评估了 XGLM、OPT、BLOOMZ 和 ChatGPT 四种常见模型的性能。在进一步分析中,本文发现大型语言模型在多语言机器翻译中具有一些新的工作方式。
Apr, 2023
本研究探讨了利用大型语言模型进行数据增强在跨语言常识推理数据集中的潜力,通过使用包括 Dolly-v2、StableVicuna、ChatGPT 和 GPT-4 在内的大型语言模型来扩充三个数据集,确定了该方法的有效性,并比较了使用英语生成数据和将英语生成的数据翻译成目标语言。实验结果表明,使用 GPT-4 生成的合成数据进行训练的性能比其他模型优秀,ChatGPT 和 GPT-4 在大多数语言中生成的自然文本效果非常好,但在某些情况下,它们的效益会下降。
May, 2023
利用新的多模态大型语言模型 AlignGPT,通过在预训练阶段为不同的图像 - 文本对分配不同级别的对齐能力,并在指导微调阶段自适应地组合这些不同级别的对齐能力,以满足不同指令的动态对齐需求,取得了 12 个基准测试的竞争性性能。
May, 2024
本综述论文探讨了多模态大型语言模型(MLLMs),该模型整合了类似于 GPT-4 的大型语言模型(LLMs),用于处理文本和视觉等多模态数据。MLLMs 展示了生成图像叙述和回答基于图像的问题等能力,缩小了人与计算机之间的差距,并暗示了通向人工智能的潜在途径。然而,MLLMs 仍面临处理多模态语义差距的挑战,可能导致错误生成,对社会造成潜在风险。选择适当的模态对齐方法至关重要,因为不恰当的方法可能需要更多参数,并且性能改进有限。该论文旨在探讨 LLMs 的模态对齐方法及其现有能力。实施模态对齐使得 LLMs 能够解决环境问题并提高可访问性。研究调查了 MLLMs 中现有的模态对齐方法,分为四个组:(1)多模态转换器将数据转换为 LLMs 可以理解的格式;(2)多模态感知器改善 LLMs 对不同类型数据的感知能力;(3)工具辅助将数据转换为一种常见格式,通常是文本;以及(4)数据驱动方法教导 LLMs 理解数据集中特定类型的数据。这个领域仍处于探索和试验阶段,我们将组织和更新各种现有的多模态信息对齐研究方法。
Nov, 2023
综述了过去一年多模态大型语言模型(MM-LLMs)的进展,提供了对 MM-LLMs 的全面调查,包括模型架构和训练流程的设计概述,介绍了 26 种不同形式的 MM-LLMs,并回顾了其在主流基准上的性能以及提升其效力的关键训练方法,同时探索了 MM-LLMs 领域的前景方向。
Jan, 2024
本篇论文通过对一个多语种预训练语言模型 XGLM-7B 进行微调并给出指示进行多语种翻译的实验,展示了预训练语言模型在翻译任务中的较强能力,并发现其翻译能力依赖于对翻译指令的理解和语言之间的对齐,研究结果可启发模型改进。
May, 2023
我们介绍了一个名为 NExT-GPT 的全方位任意多模式多语言模型系统,通过使用多模态适配器和不同扩散解码器,NExT-GPT 能够接受和生成文本、图像、视频和音频等任意组合的内容,并通过调优投影层的少量参数进行训练和扩展,使其具备复杂的跨模态语义理解和内容生成能力,为构建能够模拟通用模态的人工智能代理提供了有前景的可能性。
Sep, 2023