字节 UI-TARS-1.5:暂时领跑 OpenAI 的原生UI智能体模型框架

字节 UI-TARS-1.5:暂时领跑 OpenAI 的原生UI智能体模型框架

精选文章moguli202025-05-16 18:38:2610A+A-


字节跳动近日发布了其多模态智能体框架的新版本 UI-TARS-1.5,聚焦于图形用户界面(GUI)交互和游戏环境中的智能行为。

UI-TARS-1.5 是一款视觉-语言模型(Vision-Language Model),具备感知屏幕内容并执行交互任务的能力,在多个 GUI 自动化和游戏推理基准测试中实现了全面性能提升,显著超越了 OpenAI 的 Operator 和 Anthropic 的 Claude 3.7。

这一发布延续了字节跳动在构建原生智能体模型(Native Agent Model)上的研究方向,目标是在统一架构中整合感知、认知与行动,打造能直接与 GUI 和视觉内容交互的通用智能体。

技术亮点

UI-TARS-1.5 采用端到端训练方式,能够直接感知屏幕截图,并生成类人控制动作(如鼠标移动、键盘输入)。这使其更贴近人类用户与数字系统交互的真实方式。

  • 感知与推理集成:模型联合编码屏幕图像与文本指令,支持复杂任务理解和视觉锚定。其“先思考再行动(think-then-act)”机制,将高层规划与低层执行解耦。
  • 统一动作空间:模型设计了跨平台通用的动作表示方式,可适配桌面、移动端与游戏环境,实现一致性控制。
  • 通过回放轨迹实现自我演化:训练流程引入了在线反思式的行为轨迹数据,模型可通过分析过往交互行为不断自我优化,减少对精心构建演示数据的依赖。

GUI 任务表现

  • OSWorld(100 步任务):UI-TARS-1.5 成功率达 42.5%,显著超越 OpenAI Operator(36.4%)与 Claude 3.7(28%)。
  • Windows Agent Arena(50 步任务):模型得分为 42.1%,相比过往基线模型(如 29.8%)表现提升显著。
  • Android World:在移动系统测试中,模型成功率达 64.2%,展现出良好的跨平台泛化能力。

视觉锚定与界面理解

  • ScreenSpot-V2:模型在界面元素定位任务中准确率达 94.2%,超过 Operator(87.9%)与 Claude 3.7(87.6%)。
  • ScreenSpotPro:面对更复杂的锚定任务,UI-TARS-1.5 得分为 61.6%,远高于 Operator(23.4%)与 Claude 3.7(27.7%)。

开源与工具支持

UI-TARS-1.5 采用 Apache 2.0 协议开源,提供模型、代码、桌面代理工具与完整文档,助力开发者快速集成。

总结

UI-TARS-1.5 展示了“原生多模态智能体”方向的巨大潜力,特别是在 GUI 自动化与视觉推理任务上,提供了一种无需插件、类人交互、可迁移部署的解决方案。

Edited by AI Evangelist, Your Daily AI Newsletter

点击这里复制本文地址 以上内容由莫古技术网整理呈现,请务必在转载分享时注明本文地址!如对内容有疑问,请联系我们,谢谢!
qrcode

莫古技术网 © All Rights Reserved.  滇ICP备2024046894号-2