Oct, 2024

可推广的视觉语言模型提示调整

TL;DR本研究解决了视觉语言模型提示调整中手工和模板化提示缺乏通用性的问题。通过将软提示与手工提示视为文本模态的双重视角,并最大化它们的互信息,研究提出了一种新的方法来增强任务特定信息和一般语义信息的结合。此外,引入的视觉模态类增广技术显著提升了对未见类的鲁棒性。该方法在多个基准测试中的评估结果表明,其在特定任务性能和一般能力方面均具竞争力。