Puppeteer MCP | MCPBro

Was ist Puppeteer MCP?

Puppeteer MCP ist ein Plugin/Server, das Automatisierungsfähigkeiten für Browser über das Model Context Protocol bereitstellt. Dadurch wird das Surfen, Scraping und die Automatisierung für LLMs und Agenten-Frameworks zugänglich. Es nutzt die Puppeteer-Bibliothek für headless Chrome, sodass Modelle und Agenten programmatisch Webseiten besuchen, Formulare ausfüllen, Buttons klicken, Screenshots machen und Daten scrapen können – alles über standardisierte MCP-Schnittstellen.

Wie man Puppeteer MCP konfiguriert

Installieren Sie Node.js (falls nicht bereits vorhanden).
Installieren Sie den Puppeteer MCP-Server mit npx oder durch Klonen des Repositories:
```
npx -y @modelcontextprotocol/server-puppeteer
```
Oder als Abhängigkeit installieren:
```
npm install -g @modelcontextprotocol/server-puppeteer
```
Starten Sie den Server:
```
npx -y @modelcontextprotocol/server-puppeteer
```
Optional können Sie Umgebungsvariablen oder Befehlszeilenargumente für benutzerdefinierte Konfigurationen übergeben (z.B. Zugriffssteuerungen, Sandbox-Einstellungen oder Headless-Optionen).
Konfigurieren Sie Ihre MCP-Client/Agent-Anwendung (wie Claude Desktop oder einen anderen LLM-Host), um eine Verbindung zum Puppeteer MCP-Server herzustellen. Geben Sie den Befehl und erforderliche Argumente an. Beispiel (Claude Desktop JSON-Konfiguration):
```
{
  "mcpServers": {
    "puppeteer": {
      "command": "npx",
      "args": ["-y", "@modelcontextprotocol/server-puppeteer"]
    }
  }
}
```
Optional, passen Sie die Sicherheitseinstellungen an, den Netzwerkzugang oder richten Sie die Authentifizierung ein, falls der MCP-Server extern verfügbar ist.

Wie man Puppeteer MCP verwendet

Verfügbare Tools entdecken: Verwenden Sie Ihren MCP-Client, um den Endpoint tools/list abzufragen. So sehen Sie, welche Puppeteer-Aktionen verfügbar sind (wie puppeteer.navigate, puppeteer.evaluate, puppeteer.screenshot usw.).
Tools aufrufen: Rufen Sie die gewünschte Funktion über das MCP-Protokoll auf, indem Sie die entsprechenden Parameter angeben (z.B. eine URL angeben, zu der navigiert werden soll, oder einen Elementselektor, um zu klicken).
Sequenzen automatisieren: Verketten Sie mehrere Puppeteer-Toolaufrufe, um komplexe Abläufe zu skripten, wie z.B. das Einloggen auf einer Webseite, das Navigieren durch mehrere Seiten, das Scrapen von Tabellen oder Grafiken und das Herunterladen von Dateien.
Ergebnisse abrufen und verarbeiten: Die Ausgabe jedes Aufrufs enthält relevante Daten wie Seiteninhalte, DOM-Snapshots, extrahierte Werte oder Binärdaten (für Screenshots, PDFs usw.).
Integrieren Sie sich mit anderen MCP-Tools: Kombinieren Sie Puppeteer MCP mit anderen MCP-Servern (z.B. Filesystem, Memory, Database) für mehrstufige, multimodale Automatisierung und Datenverarbeitung.

Hauptmerkmale

Headless-Browser-Automatisierung: Nahtlose Steuerung von Chrome/Chromium für volle Web-Interaktion.
Zugriff auf dynamische Inhalte: Unterstützt JS-lastige, SPAs und interaktive Seiten.
Datenextraktion: Scrapen Sie strukturierte/unstrukturierte Inhalte mit präzisen Selektoren.
Aktionssimulation: Klicken, tippen, auswählen, scrollen und interagieren, wie es ein echter Benutzer tun würde.
Ressourcenerfassung: Machen Sie Screenshots, generieren Sie PDFs und extrahieren Sie gerendertes HTML oder DOM-Teile.
Sicherheit & Sandbox: Feingranulare Berechtigungen verhindern unsichere Aktionen und gewährleisten einen sicheren Betrieb.
Einfache Integration: Standardisierte MCP-Schnittstelle funktioniert sofort mit führenden LLM-Agenten/Apps.
Skriptbare Sequenzen: Orchestrieren Sie komplexe Arbeitsabläufe durch Verkettung von Toolaufrufen.

Anwendungsfälle

Automatisiertes Web-Scraping: Extrahieren Sie Produktlisten, Nachrichtenartikel, öffentliche Datensätze oder Social-Media-Posts.
Dynamische Datenerfassung: Erfassen Sie Daten von JavaScript-gerenderten Seiten, die für einfache HTTP-Anfragen nicht verfügbar sind.
Formularausfüllung und -einreichung: Automatisieren Sie Anmeldungen, Registrierungen oder mehrstufige Dateneingabeprozesse.
Visuelle Regression & Monitoring: Machen Sie regelmäßig Screenshots oder PDFs von hochwertigen Webseiten für Monitoring oder Dokumentation.
Testing & QA: Führen Sie automatisierte UI-Tests oder Regressionstests innerhalb Ihres LLM-Workflows durch.
Agenten-unterstütztes Browsen: Lassen Sie LLMs den Browser “steuern”, um während NLP-Aufgaben Recherchen durchzuführen, Zusammenfassungen zu erstellen oder live-Webinhalte zu validieren.

FAQ

1. Brauche ich Vorkenntnisse in Puppeteer, um den Puppeteer MCP-Server zu nutzen?
Nein. Die Tools werden als benutzerfreundliche MCP-Endpunkte mit klaren Beschreibungen bereitgestellt. Deshalb müssen weder der Benutzer noch das LLM die Details der Puppeteer API kennen, um häufige Browseraktionen auszulösen.

2. Wie kann ich einschränken, auf welche Webseiten oder Aktionen der Server zugreifen darf?
Sie können erlaubte Domains, Blocklisten oder sichere Aktionen über Umgebungsvariablen oder Befehlszeilenparameter konfigurieren. Befolgen Sie immer die besten Praktiken für die Zugriffskontrolle, insbesondere in gemeinsamen oder Produktionsumgebungen.

3. Kann ich Puppeteer MCP verwenden, um Captchas und Anmeldebildschirme zu umgehen?
Obwohl Puppeteer MCP volle Browseraktionen unterstützt (einschließlich Formularausfüllung und Navigation), beinhaltet es keine native Captcha-Lösung. Sie können jedoch Captchas zur menschlichen Lösung präsentieren oder Drittanbieter-Plugins/Dienste nutzen, wenn gewünscht.

4. Welche Dateitypen kann Puppeteer MCP ausgeben?
Sie können HTML, Klartext, Screenshots (PNG/JPEG), PDFs und beliebige vom DOM extrahierte Daten abrufen.

5. Ist es möglich, mehrstufige Arbeitsabläufe zu automatisieren, die von vorherigen Ergebnissen abhängen?
Ja. Sie können mehrere Toolaufrufe in Ihrer Agenten- oder Client-Logik verketten und die Ausgabe aus einem Schritt bei Bedarf an einen anderen weitergeben.

Tool Name	Beschreibung
puppeteer.navigate	Navigiert den headless Browser zu einer angegebenen URL, wartet auf das Laden der Seite und wartet optional auf bestimmte DOM-Ereignisse oder Selektoren.
puppeteer.evaluate	Führt beliebiges JavaScript im Kontext der geladenen Webseite aus und gibt das Ergebnis zurück. Wird für DOM-Inspektion, Datenauszug oder Manipulation verwendet.
puppeteer.screenshot	Macht einen Screenshot der aktuellen Browserseite, des Ansichtsfensters oder eines angegebenen DOM-Elements und gibt ein Bild im gewünschten Format (PNG/JPEG) zur visuellen Überprüfung oder Archivierung zurück.
puppeteer.extract	Extrahiert strukturierte Daten von der Seite mit angegebenen CSS-Selektoren oder XPath, was ein einfaches Scraping von Tabellen, Listen oder benutzerdefinierten Elementen ermöglicht.
puppeteer.click	Führt einen Mausklick (optional Doppelklick oder Rechtsklick) auf ein Element aus, das einem Selektor entspricht, und simuliert so die Benutzerinteraktion beim Navigieren oder beim Einreichen von Formularen.
puppeteer.type	Tippt Text in ein Eingabeelement oder ein Textfeld, nützlich zur Automatisierung von Anmeldungen, Suchformularen oder anderen interaktiven Feldern.
puppeteer.pdf	Erzeugt ein PDF der aktuellen Seite, das Stile und Layout beibehält, für Archivierungs- oder Compliance-Zwecke.