Apr, 2024

MMInA:多跳多模态互联网代理的基准测试

TL;DR多模态网站的自主体代理在逐渐演变的真实环境中完成复杂用户任务具有挑战性,提出了 MMInA,这是一个多跳和多模态评估综合互联网任务能力的基准,通过构建真实世界的多模态网站和综合任务评估协议,发现自主体代理在长链多跳互联网任务方面存在挑战,提出了一种简单的记忆增强方法,明显提高了代理的单跳和多跳网络浏览能力。