Apr, 2024

TinyVQA: 资源受限设备上用于视觉问答的紧凑多模态深度神经网络

TL;DR本文提出了 TinyVQA,一种用于资源受限的小型机器学习硬件上运行的视觉问答任务的新型多模态深度神经网络。通过使用监督式注意力模型来学习如何使用视觉和语言模态回答图像相关问题,TinyVQA 在 FloodNet 数据集上取得了 79.5%的准确率,同时在嵌入式系统上部署具有低延迟和低功耗。