Oct, 2022

使用大型语言模型理解 HTML

TL;DR通过 fine-tuned LLMs 调整,研究 HTML 理解(元素语义分类,输入描述生成和自主网页导航)任务。 T5-based models 表现最佳,提出一个来自 CommonCrawl 的大规模 HTML 数据集。