Apr, 2024

数字代理的自主评估和优化

TL;DR使用通用自动评估器能够显著提高网络导航和设备控制代理的性能,并通过精确的推理成本、设计模块性以及准确性之间的权衡实验了多个评估模型;通过微调和推理时指导使用这些评估器来提高现有代理的性能,在 WebArena 受欢迎的基准测试中,不需要任何额外的监督,使性能达到了 29% 的提升,并在具有挑战性的领域转移场景中实现了 75% 的相对改进。