Stagehand MCP Server

什么是 Stagehand MCP Server？

Stagehand MCP Server 充当 AI 应用与现实网页自动化任务之间的桥梁。它将网页浏览控制作为 MCP 工具暴露出来，让大型语言模型能够以编程方式浏览网站、执行任务和收集数据。它利用 Browserbase 实现远程无头浏览，并与 Claude Desktop 直接集成，使得基于 LLM 的工作流程能够访问复杂的浏览器自动化功能。

如何配置

从官方源克隆 Stagehand MCP Server 仓库。
在项目目录中，使用以下命令安装依赖：
```
npm install
npm run build
```

更新您的 Claude Desktop 配置以注册 Stagehand MCP Server：

{
  "mcpServers": {
    "stagehand": {
      "command": "node",
      "args": ["path/to/mcp-server-browserbase/stagehand/dist/index.js"],
      "env": {
        "BROWSERBASE_API_KEY": "<YOUR_BROWSERBASE_API_KEY>",
        "BROWSERBASE_PROJECT_ID": "<YOUR_BROWSERBASE_PROJECT_ID>",
        "OPENAI_API_KEY": "<YOUR_OPENAI_API_KEY>"
      }
    }
  }
}

使用以下命令运行服务器：
```
node dist/index.js
```
重启 Claude Desktop 以加载新的 MCP 配置。Stagehand 工具将作为可用的 MCP 工具出现。

如何使用

启动配置好的 Claude Desktop 和 MCP Server。
从可用的 MCP 工具菜单中访问 Stagehand 工具（寻找锤子图标）。
选择相关工具，输入所需参数（如 URL、动作、指令），然后运行功能，使用诸如站点导航、动作自动化和数据提取等工具。
在需要时，通过其各自的资源端点查看控制台日志或截图。
有关视觉演示，请参考可用文档或演示视频，展示 Claude 如何通过 Stagehand MCP Server 与网页互动。

主要特点

在 Claude Desktop 中通过 MCP 轻松访问标准化的网页自动化工具。
与 Browserbase 安全集成，实现远程无头浏览器会话。
可执行工具集：浏览网站、执行动作、提取结构化数据。
资源端点提供浏览器控制台日志和按需截图，实现全面可追溯性。
支持自定义凭证和环境隔离，以确保敏感任务和安全操作。

用例

从网页自动收集数据以获取最新见解。
端到端工作流自动化，例如登录网站、浏览仪表盘、下载报告。
基于 LLM 的浏览器代理工作流的快速原型开发。
通过 LLM 指导的自动化，监控和提取面向公众的网页内容。
收集截图和诊断日志以供合规或报告使用。

常见问题

Q1：使用 Stagehand MCP Server 我需要暴露我的本地文件或数据库吗？

不需要，Stagehand MCP Server 仅与网页资源进行交互，提供浏览器会话、截图和日志的访问。您的本地文件和数据库保持隔离，除非通过其他 MCP 服务器显式集成。

Q2：我需要什么来使用 Browserbase？

您需要一个 Browserbase API 密钥和项目 ID。这些凭证用于实例化安全的远程浏览器会话。

Q3：我如何知道 Stagehand MCP Server 是否正常运行？

启动服务器并重启 Claude Desktop 后，您应该看到 Stagehand 工具作为可调用的 MCP 工具出现。此外，检查服务器的命令行输出以确认连接或查看错误。

Q4：我可以将 Stagehand MCP Server 与其他 LLM 主机一起使用吗？

目前，主要的官方集成是与 Claude Desktop，但任何支持 MCP 协议和工具的主机都有可能利用 Stagehand MCP Server。

Q5：是否可以以编程方式捕获截图或访问浏览器日志？

可以，截图和浏览器控制台日志都作为资源暴露，可以通过其唯一的资源标识符访问，使得以编程方式检索证据或调试结果变得容易。

工具名称	描述
stagehand_navigate	在远程浏览器实例中导航到指定的 URL。输入：要打开的 URL 字符串。
stagehand_act	在活动网页上执行指定的动作。输入：动作描述（字符串），可选变量（对象）用于参数化的交互。
stagehand_extract	根据指令和提供的 JSON 模式从网页中提取结构化数据。输入：提取指令（字符串），提取模式（对象）。
stagehand_observe	观察当前网页，并根据可选指令返回可能的行为列表。输入：观察指令（字符串，可选）。