Jan, 2025
InfiGUIAgent:具有本地推理和反思能力的多模态通用GUI代理
InfiGUIAgent: A Multimodal Generalist GUI Agent with Native Reasoning
and Reflection
TL;DR本研究解决了现有图形用户界面代理在多步推理和文本注释依赖方面的不足。通过引入InfiGUIAgent,这一基于多模态大型语言模型的代理采用了双阶段的监督微调流程,显著提高了代理的推理能力和GUI交互效果。研究结果表明,本地推理技能显著提升了自动化任务的性能。