Apr, 2025
在推理时使用过程奖励指导 VLM 代理进行 GUI 导航
Guiding VLM Agents with Process Rewards at Inference Time for GUI
Navigation
TL;DR本研究针对现有视觉语言模型在复杂图形用户界面交互任务中的表现不足,提出了一种在推理时通过奖励模型给 VLM 代理提供过程监督的方法。该方法提升了 VLM 代理在静态和动态环境中的行动准确性和任务成功率,静态环境下一步行动准确率提高了 3.4%,而在动态环境中的任务成功率提高了约 33%。