Apr, 2024

VIAssist:为视觉障碍用户适应多模态大型语言模型

TL;DR本研究探讨如何利用多模态大型语言模型(MLLMs)帮助视觉障碍(VI)人士提供视觉问题的答案,并介绍了 VIAssist,一种能够识别不受欢迎图像并提供详细操作建议,并基于这些图像提供可靠答案给用户的方法。实验结果表明,VIAssist 相对于基准方法,在 BERT 得分和 ROUGE 得分上分别提高了 0.21 和 0.31。