SimpAgent (ICCV2025 Highlight):上下⽂简化重塑GUI智能体,更少计算,更强性能
近年来,GUI智能体的发展正从依赖HTML、Accessibility树等⽂本解析的模式,逐步迈向基于截图感知的“纯视觉”范式。在多模态⼤模型(MLLM)的加持下,纯视觉GUI智能体展现出⽆需系统权限、泛化能⼒强、交互⾃然等优势,被视为未来通⽤操作智能体的重要⽅向。然⽽,这⼀新范式背后却暗藏困境:⾼密度、松散关联的元素上下⽂,以及冗余的历史上下⽂,正在制约GUI智能体在性能与效率上的平衡。 为此,哈⼯深和华为的研究者们从上下⽂简化建模的⻆度提出了SimpAgent,实现了更快更强的GUI智能体,该⼯作已被 ICCV 2025 录⽤为 Highlight 论⽂。 📄 论⽂地址:https://arxiv.org/abs/2507.03730 💻 代码仓库:https://github.com/JiuTian-VL/SimpAgent01 背景:从⽂本解析到纯视觉智能体,效率困境浮现...