Sep, 2024

ZALM3:通过上下文信息在多轮多模态医学对话中实现零样本视觉语言对齐增强

TL;DR本研究解决了在多轮多模态医学对话中,由于患者手机拍摄的图像质量差而导致的视觉语言对齐问题。提出的ZALM3零样本策略通过利用之前的文本对话信息来识别图像中的兴趣区域,从而显著提升对齐效果。实验结果显示,该方法在不同临床科室中具备显著的有效性和潜在影响。