Oct, 2024

LoGra-Med:用于医疗视觉语言模型的长上下文多图对齐

TL;DR本研究针对现有医疗多模态大语言模型在视觉与语言模态间对齐不足的问题,通过提出一种新的多图对齐算法LoGra-Med,强化图像模态、基于对话的描述和扩展标题之间的三元关系。这一创新方法帮助模型更好地捕捉上下文意义和处理语言变异性,实验证明在小数据集下也能超越当前技术水平。