Aug, 2024

外科VQLA++:用于机器人手术的对抗性对比学习的标定鲁棒视觉问题定位回答

TL;DR本研究针对外科视觉问答(VQA)模型无法准确指示与特定问题相关的视觉区域的问题,提出了外科视觉问题定位回答(VQLA)方法,以实现对外科图像的精确和上下文相关的响应。通过引入校准共注意力门控视觉-语言(C²G-ViL)嵌入以及对抗样本对比学习策略,显著提升了模型的鲁棒性和性能,为外科教育、病人护理和外科结果的改善提供了有效工具。