Gairdao Community

Loading...

0 个结果

暂无内容

1 个结果

SimpAgent (ICCV2025 Highlight)：上下⽂简化重塑GUI智能体，更少计算，更强性能

近年来，GUI智能体的发展正从依赖HTML、Accessibility树等⽂本解析的模式，逐步迈向基于截图感知的“纯视觉”范式。在多模态⼤模型（MLLM）的加持下，纯视觉GUI智能体展现出⽆需系统权限、泛化能⼒强、交互⾃然等优势，被视为未来通⽤操作智能体的重要⽅向。然⽽，这⼀新范式背后却暗藏困境：⾼密度、松散关联的元素上下⽂，以及冗余的历史上下⽂，正在制约GUI智能体在性能与效率上的平衡。为此，哈⼯深和华为的研究者们从上下⽂简化建模的⻆度提出了SimpAgent，实现了更快更强的GUI智能体，该⼯作已被 ICCV 2025 录⽤为 Highlight 论⽂。 📄 论⽂地址：https://arxiv.org/abs/2507.03730 💻 代码仓库：https://github.com/JiuTian-VL/SimpAgent01 背景：从⽂本解析到纯视觉智能体，效率困境浮现...

on 2025-08-07

0 个结果

暂无内容

User Profile