BriefGPT.xyz
Ask
alpha
关键词
task completions
搜索结果 - 2
WebCanvas:在线环境下对网络代理进行基准测试
WebCanvas 是一种创新的在线评估框架,用于有效解决 Web 交互的动态特性,包含评估指标、基准数据集和注释工具,并开源了可进行在线推理和评估的代理框架。
PDF
18 days ago
WebArena:一个构建自主代理的真实网络环境
建立一个高度逼真和可重现的环境,专注于在网站上执行任务的智能代理,提供一组多样化、长期规划、模拟人类在互联网上例行执行的任务的基准任务以评估任务完成的功能正确性。
PDF
a year ago
Prev
Next