BriefGPT.xyz
Jul, 2024
提升以文本为中心的多模态对齐的鲁棒性
Enhance the Robustness of Text-Centric Multimodal Alignments
HTML
PDF
Ting-Yu Yen, Yun-Da Tsai, Keng-Te Liao, Shou-De Lin
TL;DR
将不同的模态转化为常规文本作为大型语言模型(LLMs)的输入提示,以解决多模态模型对小的成对数据的对齐问题,并评估了当前文本为中心的对齐方法在缺失数据、噪声或缺少模态下的质量和稳健性,提出了一种新的文本为中心的方法,具有出色的稳健性和适应性,为动态和现实世界应用提供了有希望的解决方案。
Abstract
Converting different modalities into general text, serving as input prompts for large language models (LLMs), is a common method to align
multimodal models
when there is limited pairwise data. This
text-centric approach
→