Mar, 2025

BEARCUBS:计算机使用网络代理的基准测试

TL;DR本研究提出了BEARCUBS,这是一个专为评估网络代理搜索、浏览和识别网络信息能力而设计的基准测试,解决了以往评估中对实际网络内容的忽视。该基准的关键在于要求代理完成多模态互动,并通过一系列明确的问题进行评估,发现目前的计算机使用代理表现不佳,仅有少数系统能达标,这凸显了源选择和多模态能力提升的必要性。