该研究分析了不同的多模态指导调优方法,并评估了它们在复杂推理、对话、图像字幕、多项选择题和二元分类等任务中的性能,揭示了在将多模态能力融入大型语言模型时的架构选择的关键见解,但当前方法存在局限性,未能充分解决丰富多样的多模态指导数据集的需求和生成响应的真实性和事实性问题,这些发现阐明了适应图像理解的语言模型的现有方法学限制,并为寻求利用多模态版本的大型语言模型的研究人员和实践者提供了有价值的指导。
Oct, 2023
本文提出了一个通用的多模态模型融合框架,以及将预训练的辅助语言模型 (AuxLM) 和掩码语言模型 (MLM) 进行多模态融合,以改进生成的图像描述的质量和纠正其语法和语义错误。在三个基准数据集上的实验结果显示出了明显的改进。
Oct, 2020
我们提出了一种简单的方法,它能够在不增加超参数的情况下产生高质量的多模态输出,将潜在代码视为卷积滤波器的修改器,从而使源域内容与目标域风格解耦。
Dec, 2018
本篇论文提出了一种基于先前训练的深度生成模型,利用潜变量空间进行无监督跨模态域迁移的新方法,并探索了通过学习一个后续接口来提高模块性的可能性。通过定量和定性的实验证明了该方法的有效性,证明了在迁移过程中局部性和语义对齐得到了保留,而且通过这种模块化结构可以大大加快新接口模型的训练速度。
Feb, 2019
本文提出了一种新方法来将视觉信息作为协助信号用于 NLP 任务,使用 Transformer 编码器和卷积神经网络来对文本和图像进行编码,通过注意力层将两种模态的表征进行融合,实验结果表明,该方法在不同的任务和语言中都具有很好的效果。
Jan, 2023
本研究提出一种多模态神经机器翻译模型,通过潜在变量模型来建模视觉和文本特征之间的交互,预测图像特征和提高翻译性能,可以在训练阶段利用视觉和文本输入,而在测试阶段不需要图像输入,通过预测图像特征等优化,同时利用合成数据等附加训练方式进一步提高翻译性能。
Nov, 2018
提出了一种简单而有效的框架 TRML,即利用多模态基础模型进行鲁棒多模态学习,通过生成虚拟模态替代丢失模态,并对生成和丢失模态之间的语义空间进行对齐,从而捕捉缺失模态的语义。在完整模态的情况下,我们的模型通过利用交叉模态语义空间的对齐来捕捉丢失模态的语义。实验证明我们的方法在三个多模态情感分析基准数据集 CMU-MOSI、CMU-MOSEI 和 MELD 上具有优势。
Jan, 2024
该论文提出了一种方法,通过将文本形式的大型语言模型嵌入图像编码器和解码器模型中,利用它们的嵌入空间之间的映射来融合两者,从而实现多模态的图像检索、新颖图像生成和多模态对话,同时还能生成并处理图像和文本输入,比非基于 LLM 的模型在一些基于文本生成图像任务方面表现更好。
May, 2023
通过使用 LORA 方法,我们提出了使用特定领域的信息数据集进行模型参数微调的方法,我们的研究旨在提高 Video-LLaVA 模型在烹饪视频中生成特定食材列表和详细指导的能力。
Jun, 2024
利用生成性人工智能进行医学图像的放射学报告撰写可极大地减少了时间成本和错误率。本研究中,我们提出了一个简单而有效的两阶段微调方案,通过软性视觉提示将视觉特征与大型语言模型的文本嵌入空间对齐。我们的框架在没有领域特定预训练的情况下取得了最先进的性能,并对软性视觉提示和注意力机制进行了详细分析,为未来的研究方向提供了启示。
Dec, 2023