关键词autonomous web navigation
搜索结果 - 2
- 基于指令微调基础模型的多模式网络导航
本文提出了一种基于视觉 - 语言模型的指令驱动表征,通过离线培训方式对 WebGUM 模型进行了训练,使其在视觉感知、HTML 理解和多步推理能力上表现出色,相比现有最佳方法提高了 31.9%以上。
- 使用大型语言模型理解 HTML
通过 fine-tuned LLMs 调整,研究 HTML 理解(元素语义分类,输入描述生成和自主网页导航)任务。 T5-based models 表现最佳,提出一个来自 CommonCrawl 的大规模 HTML 数据集。