在人工智能的浪潮中，大型语言模型（LLMs）的迅猛发展催生了各式各样的AI助手。从Siri到小爱同学，这些助手已经在日常生活中扮演了重要角色。然而，随着用户需求的日益复杂，传统的API驱动助手逐渐显得力不从心。为了突破这一瓶颈，研究者们提出了GUI Agent的概念，旨在通过多模态大语言模型（MLLM）的强大能力，让AI能够在第三方应用上自主完成任务。然而，现有的评测平台大多局限于静态帧评估，无法全面反映真实世界中的动态任务执行情况。为此，A3（Android Agent Arena）应运而生，它不仅提供了丰富的任务场景，还引入了基于大语言模型的自动化评测方法，为移动GUI Agent的研究开辟了新的战场。

论文地址：A3: Android Agent Arena for Mobile GUI Agents

GitHub：Android Agent Arena

1. 引言

近年来，随着大型语言模型（LLMs）的快速发展，AI Agent的研究取得了显著进展。移动GUI Agent作为AI Agent的一个子集，旨在通过多模态大语言模型（MLLM）的强大能力，自主完成移动设备上的任务。尽管已有许多研究提出了Agent、数据集和基准测试，但大多数现有数据集仍局限于静态帧评估，无法全面反映真实世界中的动态任务执行情况。静态帧评估通常只提供截图或UI状态，要求Agent基于单个冻结帧预测下一步操作。这种方法无法捕捉真实世界任务的动态性和交互性，导致现有GUI Agent的能力与实际应用需求之间存在显著差距。

添加图片注释，不超过 140 字（可选）

为了解决这一问题，研究者们提出了Android Agent Arena（A3），一个全新的评测平台。A3不仅提供了21个广泛使用的第三方应用和201个代表常见用户场景的任务，还引入了基于大语言模型的自动化评测方法，大大减少了人工干预和编码需求。A3的目标是为移动GUI Agent的研究提供一个更加全面和互动的评测平台。

2. 相关工作

2.1 GUI Agent

近年来，研究者们开始将大型语言模型（LLMs）应用于GUI任务。例如，Wang等人（2023）将LLMs应用于单页交互任务，但这些任务更类似于问答任务，而非端到端的指令任务。随着LLMs的广泛知识和强大推理能力的提升，研究者们开始探索如何利用这些模型进行任务规划和执行。例如，Zhang等人（2024）和Zheng等人（2024）通过精心设计的提示工程，指导GPT-4v等通用业务级模型执行复杂任务。然而，这些方法的有效性高度依赖于提示设计的精细程度。

另一种研究方向是通过GUI特定数据集对较小的LLMs进行微调，以提高其在GUI任务中的表现。例如，CogAgent（Hong et al., 2024）通过引入高分辨率跨模块融合多级图像特征，提升了GUI任务的表现。MobileAgent（Ding, 2024）则通过优化输入数据结构和样本处理，使其更符合LLMs的需求。SphAgent（Chai et al., 2024）利用元素功能进一步增强了屏幕和元素的理解能力。CoCo-Agent（Ma et al., 2024）和AndroidControl（Li et al., 2024）则通过整合来自无障碍树或视图层次结构的元素布局作为额外输入，提升了任务表现。

添加图片注释，不超过 140 字（可选）

2.2 GUI相关数据集

Rico数据集系列（Deka et al., 2017; Sunkara et al., 2022）的引入为GUI相关研究提供了基础数据集，推动了GUI元素分类和检测的发展。随后，Burns等人（2021）和Gubbi Venkatesh等人（2024）引入了小规模的基于指令的GUI控制数据集。其中，UGIF（Gubbi Venkatesh et al., 2024）支持八种语言，是一个多语言数据集。AttW（Rawles et al., 2024b）则扩展了该领域，但其存在指令冗余和频繁的错误标注问题。AttZ（Zhang et al., 2024）通过应用Chain-of-Action-Thought重新标注，解决了AttW的问题，但数据集规模较小。AndroidControl（Li et al., 2024）引入了大规模数据集，但任务较为简单，且动作空间与AttW和AttZ不同。AMEX（Chai et al., 2024）则通过引入元素功能重新定义了GUI元素标注，推动了更复杂任务的发展。

2.3 动态评测基准

为了克服静态帧评估的局限性，研究者们开发了多个动态评测系统。例如，Mobile-Env（Zhang et al., 2023b）支持更广泛的通用应用，但任务数量有限。AndroidArena（Xing et al., 2024）引入了更多任务，包括跨应用任务，但仅限于Google应用和内置系统应用。B-Moca（Lee et al., 2024）支持韩语设置，但任务过于简单且缺乏多样性。AndroidWorld（Rawles et al., 2024a）使用F-Droid的开源应用，但这些应用与主流应用设计差异较大。AndroidLab（Xu et al., 2024）是第一个引入信息查询指令和评估的系统，但其应用选择局限于离线和静态应用。

添加图片注释，不超过 140 字（可选）

3. Android Agent Arena (A3)

3.1 概述

A3是一个基于Appium的轻量级系统，充当GUI Agent和Android设备之间的桥梁。A3集成了任务及其对应的评估功能。评测过程从控制器获取设备的当前状态开始，包括截图和XML文件。该状态和任务指令以及额外的信息（如之前的截图、XML文件和动作）被发送给Agent。Agent分析输入并预测下一步动作，预测的动作通过翻译器转换为设备控制命令以与设备交互。此循环持续进行，直到Agent发出任务完成信号或达到预定义的最大步骤数。在过程结束时，评估器使用评估功能确定任务是否成功完成。

3.2 动作空间

A3扩展了动作空间，包含所有数据集的动作类型，确保与任何数据集训练的Agent兼容。AttW、AttZ和AMEX共享相同的动作空间：点击、滚动、输入、返回、主页、完成、不可能。AndroidControl引入了不同的动作空间，包括两个额外的动作：打开、长按和等待。A3支持这些额外的动作，确保与AndroidControl训练的Agent兼容。

3.3 任务

A3包含了来自21个广泛使用的第三方应用的200多个任务，显著拓宽了真实世界场景的范围。每个任务都经过精心选择，代表给定应用的最常见功能和用例。任务分为三类：操作任务、单帧查询任务和多帧查询任务。操作任务涉及在设备上完成一系列动作，例如在YouTube Music上搜索“Taylor Swift”并订阅。单帧查询任务要求Agent在完成请求的动作后返回一条信息，例如在Booking.com上搜索北京从12月27日到12月28日的住宿，按价格从低到高排序，并提供最低价格。多帧查询任务更为复杂，要求Agent在多个步骤中收集和处理信息，然后做出响应。

添加图片注释，不超过 140 字（可选）

3.4 评估

A3提供了两种评估方法：任务特定的评估函数和基于业务级LLM的评估系统。任务特定的评估函数用于评估Agent是否成功完成给定任务，评估方法包括元素匹配和动作匹配。基于LLM的评估系统利用GPT-4o和Gemini 1.5 Pro等大语言模型的能力，实现半自动或全自动的任务评估。GPT-4o在生成评估函数方面表现出色，尽管偶尔会产生逻辑错误或错误条件，但显著减少了编码工作量。LLM评估系统的准确性约为80%，通过交叉验证过程进一步提高可靠性。

添加图片注释，不超过 140 字（可选）

4. 实验

4.1 微调Agent

研究者基于InternVL2-8B模型训练了一个Agent，并在AndroidControl静态帧测试集和A3动态竞技场上进行了测试。尽管Agent在AndroidControl静态测试集上表现良好，但在真实世界场景中的表现较差。分析表明，动作历史的缺失和错误动作的累积是导致性能下降的主要原因。

添加图片注释，不超过 140 字（可选）

4.2 业务级LLM

研究者还使用GPT-4o作为Agent在A3中进行测试。尽管GPT-4o在直接输出或输入坐标方面表现不佳，但通过Set-of-Mark（SoM）技术，其在点击动作上的表现有所提升。然而，GPT-4o在其他动作（如滚动）上仍存在困难。AppAgent（Zhang et al., 2023a）在任务自动化前进行探索阶段，并在执行过程中表达其推理和规划，显著提升了其作为Agent的有效性。

4.3 错误案例

在评估过程中，研究者观察到一些常见的错误案例，例如在错误坐标上执行点击、执行无意义的动作、在元素未选中时开始输入以及无法停止等。这些错误反映了现有Agent在真实世界场景中面临的挑战。

5. 局限性

A3集成的任务和评估函数基于特定版本的应用，可能导致不同版本应用的评估结果不同。此外，业务级LLM（如GPT-4o和Gemini）只能评估整个任务是否完成，无法判断子目标是否完全包含在动作链中。

6. 讨论

所有数据集均按照许可（如AndroidControl和AMEX的Apache 2.0）一致使用。在评估过程中未发现潜在风险。

7. 结论

A3为GUI Agent提供了一个全面且自主的在线评测系统，集成了人类验证的任务-评估对和基于LLM的交叉验证过程。任务涵盖了更广泛的应用类别，能够在三个难度级别上评估Agent的操作执行和信息检索能力。自主评估过程显著减少了人工干预和工作量，为扩展评测任务数量提供了更高效的方法。

A3:安卓智能助手的新战场——移动GUI Agent的全面评测平台

1. 引言

2. 相关工作

2.1 GUI Agent

2.2 GUI相关数据集

2.3 动态评测基准

3. Android Agent Arena (A3)

3.1 概述

3.2 动作空间

3.3 任务

3.4 评估

4. 实验

4.1 微调Agent

4.2 业务级LLM

4.3 错误案例

5. 局限性

6. 讨论

7. 结论

相关文章