Mar, 2024

Tur[k]ingBench: 网页代理挑战基准

TL;DR通过实验模拟了多模式预训练对网络页面的理解能力,在基准测试中发现了现有模型的优势和不足,并希望该基准测试能促进网络代理的评估和发展。