在人工智能的浪潮中,大型语言模型(LLMs)的迅猛发展催生了各式各样的AI助手。从Siri到小爱同学,这些助手已经在日常生活中扮演了重要角色。然而,随着用户需求的日益复杂,传统的API驱动助手逐渐显得力不从心。为了突破这一瓶颈,研究者们提出了GUI Agent的概念,旨在通过多模态大语言模型(MLLM)的强大能力,让AI能够在第三方应用上自主完成任务。然而,现有的评测平台大多局限于静态帧评估,无法全面反映真实世界中的动态任务执行情况。为此,A3(Android Agent Arena)应运而生,它不仅提供了丰富的任务场景,还引入了基于大语言模型的自动化评测方法,为移动GUI Agent的研究开辟了新的战场。
论文地址:A3: Android Agent Arena for Mobile GUI Agents
GitHub:Android Agent Arena
1. 引言
近年来,随着大型语言模型(LLMs)的快速发展,AI Agent的研究取得了显著进展。移动GUI Agent作为AI Agent的一个子集,旨在通过多模态大语言模型(MLLM)的强大能力,自主完成移动设备上的任务。尽管已有许多研究提出了Agent、数据集和基准测试,但大多数现有数据集仍局限于静态帧评估,无法全面反映真实世界中的动态任务执行情况。静态帧评估通常只提供截图或UI状态,要求Agent基于单个冻结帧预测下一步操作。这种方法无法捕捉真实世界任务的动态性和交互性,导致现有GUI Agent的能力与实际应用需求之间存在显著差距。
添加图片注释,不超过 140 字(可选)
为了解决这一问题,研究者们提出了Android Agent Arena(A3),一个全新的评测平台。A3不仅提供了21个广泛使用的第三方应用和201个代表常见用户场景的任务,还引入了基于大语言模型的自动化评测方法,大大减少了人工干预和编码需求。A3的目标是为移动GUI Agent的研究提供一个更加全面和互动的评测平台。
2. 相关工作
2.1 GUI Agent
近年来,研究者们开始将大型语言模型(LLMs)应用于GUI任务。例如,Wang等人(2023)将LLMs应用于单页交互任务,但这些任务更类似于问答任务,而非端到端的指令任务。随着LLMs的广泛知识和强大推理能力的提升,研究者们开始探索如何利用这些模型进行任务规划和执行。例如,Zhang等人(2024)和Zheng等人(2024)通过精心设计的提示工程,指导GPT-4v等通用业务级模型执行复杂任务。然而,这些方法的有效性高度依赖于提示设计的精细程度。
另一种研究方向是通过GUI特定数据集对较小的LLMs进行微调,以提高其在GUI任务中的表现。例如,CogAgent(Hong et al., 2024)通过引入高分辨率跨模块融合多级图像特征,提升了GUI任务的表现。MobileAgent(Ding, 2024)则通过优化输入数据结构和样本处理,使其更符合LLMs的需求。SphAgent(Chai et al., 2024)利用元素功能进一步增强了屏幕和元素的理解能力。CoCo-Agent(Ma et al., 2024)和AndroidControl(Li et al., 2024)则通过整合来自无障碍树或视图层次结构的元素布局作为额外输入,提升了任务表现。
添加图片注释,不超过 140 字(可选)
2.2 GUI相关数据集
Rico数据集系列(Deka et al., 2017; Sunkara et al., 2022)的引入为GUI相关研究提供了基础数据集,推动了GUI元素分类和检测的发展。随后,Burns等人(2021)和Gubbi Venkatesh等人(2024)引入了小规模的基于指令的GUI控制数据集。其中,UGIF(Gubbi Venkatesh et al., 2024)支持八种语言,是一个多语言数据集。AttW(Rawles et al., 2024b)则扩展了该领域,但其存在指令冗余和频繁的错误标注问题。AttZ(Zhang et al., 2024)通过应用Chain-of-Action-Thought重新标注,解决了AttW的问题,但数据集规模较小。AndroidControl(Li et al., 2024)引入了大规模数据集,但任务较为简单,且动作空间与AttW和AttZ不同。AMEX(Chai et al., 2024)则通过引入元素功能重新定义了GUI元素标注,推动了更复杂任务的发展。
2.3 动态评测基准
为了克服静态帧评估的局限性,研究者们开发了多个动态评测系统。例如,Mobile-Env(Zhang et al., 2023b)支持更广泛的通用应用,但任务数量有限。AndroidArena(Xing et al., 2024)引入了更多任务,包括跨应用任务,但仅限于Google应用和内置系统应用。B-Moca(Lee et al., 2024)支持韩语设置,但任务过于简单且缺乏多样性。AndroidWorld(Rawles et al., 2024a)使用F-Droid的开源应用,但这些应用与主流应用设计差异较大。AndroidLab(Xu et al., 2024)是第一个引入信息查询指令和评估的系统,但其应用选择局限于离线和静态应用。
添加图片注释,不超过 140 字(可选)
3. Android Agent Arena (A3)
3.1 概述
A3是一个基于Appium的轻量级系统,充当GUI Agent和Android设备之间的桥梁。A3集成了任务及其对应的评估功能。评测过程从控制器获取设备的当前状态开始,包括截图和XML文件。该状态和任务指令以及额外的信息(如之前的截图、XML文件和动作)被发送给Agent。Agent分析输入并预测下一步动作,预测的动作通过翻译器转换为设备控制命令以与设备交互。此循环持续进行,直到Agent发出任务完成信号或达到预定义的最大步骤数。在过程结束时,评估器使用评估功能确定任务是否成功完成。
3.2 动作空间
A3扩展了动作空间,包含所有数据集的动作类型,确保与任何数据集训练的Agent兼容。AttW、AttZ和AMEX共享相同的动作空间:点击、滚动、输入、返回、主页、完成、不可能。AndroidControl引入了不同的动作空间,包括两个额外的动作:打开、长按和等待。A3支持这些额外的动作,确保与AndroidControl训练的Agent兼容。
3.3 任务
A3包含了来自21个广泛使用的第三方应用的200多个任务,显著拓宽了真实世界场景的范围。每个任务都经过精心选择,代表给定应用的最常见功能和用例。任务分为三类:操作任务、单帧查询任务和多帧查询任务。操作任务涉及在设备上完成一系列动作,例如在YouTube Music上搜索“Taylor Swift”并订阅。单帧查询任务要求Agent在完成请求的动作后返回一条信息,例如在Booking.com上搜索北京从12月27日到12月28日的住宿,按价格从低到高排序,并提供最低价格。多帧查询任务更为复杂,要求Agent在多个步骤中收集和处理信息,然后做出响应。
添加图片注释,不超过 140 字(可选)
3.4 评估
A3提供了两种评估方法:任务特定的评估函数和基于业务级LLM的评估系统。任务特定的评估函数用于评估Agent是否成功完成给定任务,评估方法包括元素匹配和动作匹配。基于LLM的评估系统利用GPT-4o和Gemini 1.5 Pro等大语言模型的能力,实现半自动或全自动的任务评估。GPT-4o在生成评估函数方面表现出色,尽管偶尔会产生逻辑错误或错误条件,但显著减少了编码工作量。LLM评估系统的准确性约为80%,通过交叉验证过程进一步提高可靠性。
添加图片注释,不超过 140 字(可选)
4. 实验
4.1 微调Agent
研究者基于InternVL2-8B模型训练了一个Agent,并在AndroidControl静态帧测试集和A3动态竞技场上进行了测试。尽管Agent在AndroidControl静态测试集上表现良好,但在真实世界场景中的表现较差。分析表明,动作历史的缺失和错误动作的累积是导致性能下降的主要原因。
添加图片注释,不超过 140 字(可选)
4.2 业务级LLM
研究者还使用GPT-4o作为Agent在A3中进行测试。尽管GPT-4o在直接输出或输入坐标方面表现不佳,但通过Set-of-Mark(SoM)技术,其在点击动作上的表现有所提升。然而,GPT-4o在其他动作(如滚动)上仍存在困难。AppAgent(Zhang et al., 2023a)在任务自动化前进行探索阶段,并在执行过程中表达其推理和规划,显著提升了其作为Agent的有效性。
4.3 错误案例
在评估过程中,研究者观察到一些常见的错误案例,例如在错误坐标上执行点击、执行无意义的动作、在元素未选中时开始输入以及无法停止等。这些错误反映了现有Agent在真实世界场景中面临的挑战。
5. 局限性
A3集成的任务和评估函数基于特定版本的应用,可能导致不同版本应用的评估结果不同。此外,业务级LLM(如GPT-4o和Gemini)只能评估整个任务是否完成,无法判断子目标是否完全包含在动作链中。
6. 讨论
所有数据集均按照许可(如AndroidControl和AMEX的Apache 2.0)一致使用。在评估过程中未发现潜在风险。
7. 结论
A3为GUI Agent提供了一个全面且自主的在线评测系统,集成了人类验证的任务-评估对和基于LLM的交叉验证过程。任务涵盖了更广泛的应用类别,能够在三个难度级别上评估Agent的操作执行和信息检索能力。自主评估过程显著减少了人工干预和工作量,为扩展评测任务数量提供了更高效的方法。