微软研究院近日开源了全新网页智能体(Web Agent)框架 Webwright。该框架摒弃了当前主流的“截图/DOM 点击”预测模式,转而让 AI 模型直接在终端内编写 Playwright 代码及执行 Bash 命令,以更高效、更具逻辑性的方式完成复杂网页任务。

image.png

一、核心架构:极简化的“终端优先”范式

Webwright 的设计理念非常硬核——“一个终端胜过万千抽象”。其整个框架代码量仅约 1,000行,由三个核心模块构成,且无任何复杂的多智能体编排:

  1. Runner (约150行): 负责智能体循环的核心逻辑,管理上下文与执行。

  2. Model Endpoint (约550行): 统一的模型交互接口,支持 OpenAI、Anthropic 及 OpenRouter 等后端。

  3. Terminal Environment (约300行): 提供一个隔离的终端执行环境,让模型在此运行 Playwright 脚本、查看日志、分析截图并执行调试。

工作流程: Runner 发送当前任务上下文给模型 → 模型生成“思考过程”与“Shell 命令” → 环境执行并返回结果(输出、截图、报错栈) → 进入下一轮循环,直至任务完成。

image.png

二、为何要从“点击”转向“写代码”?

当前主流智能体通过不断预测“点击、滚动、输入”来操作浏览器,这种模式存在效率低、状态维持困难等瓶颈。Webwright 的代码驱动模式带来了显著优势:

三、工程突破:解决“伪成功”与“上下文膨胀”

针对智能体常遇到的两大痛点,Webwright 引入了针对性方案:

四、测试表现:性能碾压基准线

在2026年5月的基准测试中,Webwright 表现优异:

行业评价

Webwright 的出现展示了一个重要趋势:随着模型编程能力的提升,智能体正在向“开发者范式”转型。通过将浏览器视为一个可编程的端点,而非单纯的交互界面,Webwright 成功将 AI 网页任务的执行效率与鲁棒性提升到了新的高度。

对于广大开发者而言,Webwright 不仅是一个智能体框架,更是一个能帮你自动编写、维护和打包自动化脚本的“超级员工”。目前该项目已在 GitHub 开源。