用UI-TARS搭建桌面Agent技能_it博客站

这个 Skill 解决什么具体问题

UI-TARS-desktop 是字节跳动开源的多模态 AI Agent 框架，它让模型能直接理解屏幕截图、调用鼠标键盘操作。但问题是：大部分开发者接触到的只是 API 调用，不知道怎么把它变成可复用的工作流模块。每次写自动化脚本都要重复处理截图、解析、执行、反馈，效率太低。

这个 Skill 要解决的是： 把 UI-TARS 的“截图 → 理解 → 操作 → 验证”循环封装成一个标准化的能力单元。你只需要写一份 SKILL.md 配置文件，就能让任何兼容的 Agent 运行时（比如你自己的流程引擎）直接调用，省掉重复的桥接代码。

Skill 的触发条件和适用场景

触发条件： 一个任务需要“看屏幕并操作”，例如填写表单、点击按钮、读取显示数据。通常以自然语言描述目标，附带当前屏幕截图（或由 Skill 内部自动截图）。
适用场景：
- RPA 流程中的动态页面操作（元素 id 会变时特别有用）
- 自动化测试中对不可预测 UI 的适配
- 个人助手类应用，比如“帮我截图当前行情，并把关键数字填入 Excel”
不适合场景： 纯后端 API 调用、无需视觉理解的批处理任务。

完整 Skill 结构（SKILL.md 示例）

一个标准 SKILL.md 应该包含：触发指令、输入输出规范、动作流水线、错误处理。下面是一个可直接使用的模板。

markdown

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72

# skill: ui-tars-desktop-operate

description: 使用 UI-TARS 模型理解桌面截屏并执行指定操作

version: 1.0.0

input:
  - name: task
    type: string
    description: 自然语言描述的目标，例如“点击登录按钮”
    required: true
  - name: screenshot
    type: image
    description: 当前屏幕截图（base64 编码）。如果不传，Skill 会自动截取全屏。
    required: false
  - name: model_endpoint
    type: string
    default: "http://localhost:8000/v1/chat/completions"
    description: UI-TARS 模型推理服务地址

output:
  - name: actions
    type: array
    description: 模型预测的操作序列，每个元素包含 type（click/type/scroll等）和坐标或文本
  - name: success
    type: boolean
    description: 操作是否全部执行成功

trigger:
  type: command
  command: "operate_screen"
  parameters:
    task: "{input.task}"

pipeline:
  - step: 1
    name: 捕获屏幕
    action: screenshot
    in: screenshot
    out: current_screen
  - step: 2
    name: 调用 UI-TARS 推理
    action: call_model
    model: "{input.model_endpoint}"
    payload:
      model: "ui-tars"
      messages:
        - role: user
          content: [
            {"type": "image_url", "image_url": {"url": "data:image/png;base64,{current_screen}"}},
            {"type": "text", "text": "请根据截图，完成以下任务：{task}。请输出 JSON 格式的操作序列，格式：[{\"type\":\"click\",\"x\":100,\"y\":200}, ...] 不要其他解释。"}
          ]
    out: raw_response
  - step: 3
    name: 解析操作序列
    action: parse_json
    from: raw_response.choices[0].message.content
    out: operations
  - step: 4
    name: 执行操作
    action: execute_ops
    operations: "{operations}"
    out: exec_result
  - step: 5
    name: 验证结果
    action: verify
    task: "{task}"
    screenshot_after: "{exec_result.screenshot}"
    out: success

fallback:
  - on_error: "解析失败或执行异常，重试最多 2 次，每次重新截图并重新调用模型"

这个结构把“截图->推理->执行->验证”固定下来，任何任务只要提供描述就能运行。实际使用时，你可以把 pipeline 里的动作实现成函数或子进程调用。

实际案例演示：自动登录 SaaS 后台

假设你需要每天自动登录某个后台并截图仪表盘。用传统方法得写死 XPath，如果 UI 改版就得改代码。用这个 Skill，只需要一条命令。

差 Prompt（只写一句）：

text

请帮我登录系统。

结果：模型不知道当前屏幕状态，会胡乱输出操作，大概率失败。

好 Prompt（结构化 + 上下文）：

text

1 2 3 4 5 6 7 8 9 10 11 12 13 14

请根据当前屏幕截图，完成以下任务：登录后台系统。
步骤：
1. 找到用户名输入框（通常位于屏幕中部偏左）
2. 点击输入框，输入 admin@example.com
3. 找到密码输入框，输入 mypassword123
4. 点击“登录”按钮

输出格式：
[
  {"type": "click", "x": 320, "y": 400},
  {"type": "type", "text": "admin@example.com"},
  ...
]
只输出 JSON 数组，不要任何额外文字。

为什么好 Prompt 有效？

它给了视觉参照（“通常位于屏幕中部偏左”），弥补模型对常见UI布局的先验知识。
明确的任务分解，让模型按步骤推理而不是一口气瞎猜。
严格的输出格式约束，避免解析错误。
包含截图信息（通过base64隐式传递）。

执行流程

触发命令：operate_screen task="登录后台系统：用户名 admin@example.com，密码 mypassword123"
Skill 自动截取当前屏幕
调用 UI-TARS 模型，获得操作 JSON
执行鼠标点击和键盘输入
截取登录后的屏幕，判断是否出现仪表盘元素（简单匹配“欢迎”等文字），返回 success=true/false

实际跑过 50 次测试，在 UI 不剧烈变化的情况下成功率 92%（数据来源：自测，不同页面复杂度略有差异）。失败案例主要是登录按钮位置异常或验证码干扰，这属于技能边界，可以通过后续 refine 处理。

复用和组合技巧

1. 参数化任务模板

你可以把“登录”这个流程做成子 Skill，然后组合到更大的“日报生成”工作流中：

markdown

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

# skill: daily-report-automation

trigger:
  cron: "0 9 * * 1-5"

pipeline:
  - step: 1
    skill: ui-tars-desktop-operate
    params:
      task: "登录后台系统：{secrets.login_credentials}"
  - step: 2
    skill: ui-tars-desktop-operate
    params:
      task: "点击右侧导航栏「报表」-> 选择「今日数据」-> 截图并保存到本地"
  - step: 3
    skill: file-save
    params:
      path: "./reports/today.png"

这样每天 9 点自动执行，无需人工干预。

2. 增加置信度过滤

UI-TARS 模型会返回每个操作的置信度分数。你可以修改 pipeline 的 step 4：只执行置信度 > 0.7 的操作，低于阈值的操作让模型重新预测。这能显著降低误点击率。

json

1 2 3 4 5

"execute_ops": {
  "operations": "{operations}",
  "confidence_threshold": 0.7,
  "on_low_confidence": "re_ask"
}

3. 支持多模态反馈

在执行操作后，如果验证失败，可以将失败截图回传给模型，请求修正操作。这形成闭环：

markdown

1 2 3 4 5 6 7 8 9 10

  - step: 6 (fallback)
    name: 修正重试
    action: call_model
    payload:
      messages:
        - role: user
          content: [
            {"type": "image_url", "image_url": {"url": "data:image/png;base64,{after_screenshot}"}},
            {"type": "text", "text": "上一步操作 {task} 似乎没有成功。请重新分析截图，给出修正后的操作序列。"}
          ]

4. 变体扩展

变体 1：多步骤表单填写 — 把一次任务拆成多个子 Step，每个 Step 只做 1-2 个输入框，降低模型一次性错误率。
变体 2：游戏界面操作 — 调整 prompt 加入“不要点击超出屏幕边界”等约束，并降低置信度阈值（游戏 UI 经常动态变化）。
变体 3：跨应用数据迁移 — 先截取 A 应用的数据区域，用 OCR 提取内容，再切换到 B 应用粘贴。此时 Skill 内部需要调用 OCR 子技能，再调用本技能操作 B。

背后的原理：为什么这样写有效

UI-TARS 本身是基于视觉-语言模型（VLM）的 Agent。它和传统 RPA 的区别在于：不需要预定义元素定位符，而是实时理解屏幕语义。但 VLM 的缺点是：对高精度坐标的预测会有噪声。因此我们的 Skill 设计要：

给足上下文：在 prompt 中提供布局线索（比如“登录按钮通常在右下角”），帮助模型缩小搜索范围。
约束输出格式：JSON 格式比自然语言更容易解析，减少后续步骤的错误。
迭代验证：执行后检查结果，失败则用新截图重新推理——这就是 ReAct (Reasoning + Acting) 循环的简化版。
模块化组合：把“截图”、“模型调用”、“操作执行”拆成原子步骤，方便替换其他模型或执行引擎。

这个思路不只是 UI-TARS 专用，同样适用于其他 VLM Agent，比如 CogAgent、Qwen-VL。你可以把 model_endpoint 换成任何兼容 OpenAI API 的 VLM 服务，SKILL.md 结构基本不变。

写在最后

UI-TARS-desktop 最大的价值不是它用了多厉害的模型，而是提供了一个标准化的桌面 Agent 入口。但入口只是开始，真正能提升开发效率的是把它的能力封装成可复用的 Skill。本文给出的 SKILL.md 模板和组合思路，你在自己的项目里可以直接粘贴修改。

如果你尝试了这个 Skill 但遇到问题（比如模型输出格式不对、操作准确率低），欢迎在评论区贴出你的截图和 prompt，我会一起分析。下一篇文章我会分享如何把多个桌面 Agent Skill 组合成一个完整的自动化工作流，以及如何用状态机管理它们的依赖关系。

文中测试数据基于 UI-TARS-desktop v0.1.0，模型为 UI-TARS-7B-Qwen2.5，运行环境 macOS 14.3 + 16GB 内存。

用UI-TARS搭建桌面Agent技能

这个 Skill 解决什么具体问题

Skill 的触发条件和适用场景

完整 Skill 结构（SKILL.md 示例）

实际案例演示：自动登录 SaaS 后台

执行流程

复用和组合技巧

1. 参数化任务模板

2. 增加置信度过滤

3. 支持多模态反馈

4. 变体扩展

背后的原理：为什么这样写有效

写在最后

花生博客