Apr, 2025
RealWebAssist:针对真实用户的长时间网络辅助的基准
RealWebAssist: A Benchmark for Long-Horizon Web Assistance with
Real-World Users
TL;DR本研究解决了现有网络代理基准在长时间任务中处理模糊用户指令的不足,提出了RealWebAssist基准,旨在评估现实场景中的顺序指令跟随能力。研究发现,当前的先进模型在理解和执行用户指令方面存在显著挑战,反映出在长时间网络辅助中需要改进的关键领域。