May, 2023

基于指令微调基础模型的多模式网络导航

TL;DR本文提出了一种基于视觉 - 语言模型的指令驱动表征,通过离线培训方式对 WebGUM 模型进行了训练,使其在视觉感知、HTML 理解和多步推理能力上表现出色,相比现有最佳方法提高了 31.9%以上。