Mar, 2024

利用 WebSight 数据集解锁网页截图转换为 HTML 代码

TL;DR使用视觉 - 语言模型(VLMs)在 Web 开发中提供截屏或草图界面,能够自动生成相应的 HTML 代码,这项研究介绍了 WebSight 合成数据集和基于该数据集进行优化的 VLM,在将网页截屏转换为功能性 HTML 代码方面表现出良好的效果,并开源了 WebSight 以加速该领域的研究。