Databricks MCP Server

Was ist der Databricks MCP Server?

Der Databricks MCP Server ist ein leichtgewichtiger Server, der die APIs der Databricks-Plattform über das MCP-Protokoll mit KI-gestützten Anwendungen verbindet. Er stellt die Funktionalität von Databricks als ausführbare Tools zur Verfügung. Diese können von Sprachmodellen und Automatisierungssystemen aufgerufen werden, was eine einfache Interaktion und Automatisierung von Databricks-Ressourcen auf programmatische und standardisierte Weise ermöglicht.

Wie konfiguriert man den Databricks MCP Server

Installieren Sie die Voraussetzungen: Stellen Sie sicher, dass Sie Python 3.10+ haben und installieren Sie den uv Paketmanager für eine einfache Umgebungverwaltung.

Klonen Sie das Repository:

git clone https://github.com/JustTryAI/databricks-mcp-server.git
cd databricks-mcp-server

Richten Sie das Projekt ein:
Verwenden Sie uv venv, um eine virtuelle Umgebung zu erstellen und Abhängigkeiten zu installieren:

uv venv
# Aktivieren Sie die virtuelle Umgebung und installieren Sie die Abhängigkeiten gemäß Ihrer Betriebssystem-Anleitung
uv pip install -e .
uv pip install -e ".[dev]"

Konfigurieren Sie Umgebungsvariablen:
Setzen Sie DATABRICKS_HOST auf die URL Ihres Databricks-Workspaces und DATABRICKS_TOKEN auf Ihr persönliches Zugriffstoken. Sie können eine .env-Datei verwenden oder diese direkt in Ihrem Terminal setzen.
(Optional) Überprüfen Sie die .env.example für eine Vorlage der Konfiguration und bewährte Praktiken.

Wie verwendet man den Databricks MCP Server

Starten Sie den Server:
Verwenden Sie die bereitgestellten Wrapper-Skripte, um den MCP Server zu starten:
```
# Windows
.\start_mcp_server.ps1
# Linux/Mac
./start_mcp_server.sh
```
Rufen Sie Tools über MCP-Clients auf:
Verbinden Sie Ihre MCP-kompatible Anwendung oder Agenten mit dem laufenden Server. Der Server stellt Databricks-Operationen als Tools zur Verfügung, die über das MCP-Protokoll (z. B. tools/list, tools/call) entdeckt und aufgerufen werden können.
Hilfsskripte:
Verwenden Sie die mitgelieferten Skripte im Verzeichnis scripts/ (z. B. show_clusters.py, show_notebooks.py), um direkt mit Databricks-Ressourcen zu interagieren oder sie als Beispiele für benutzerdefinierte Automatisierungen zu verwenden.

Hauptmerkmale

Volle MCP-Protokollunterstützung für standardisierte LLM-Integration
Macht wichtige Databricks-Funktionen (Cluster, Jobs, Notebooks, DBFS-Dateizugriff, SQL-Ausführung) als aufrufbare Tools verfügbar
Basiert auf asyncio für effizienten, gleichzeitigen Betrieb
Einfach erweiterbar mit neuen Tools für eine umfassendere Databricks-API-Abdeckung
Funktioniert sicher innerhalb Ihrer Dateninfrastruktur mit persönlichen Zugriffstoken und Isolierung der Umgebung
Vorgefertigte Hilfsskripte und klare Projektstruktur für Benutzerfreundlichkeit

Anwendungsfälle

Automatisierte Clusterverwaltung: Erstellen, auflisten, beenden oder starten Sie Cluster dynamisch über LLM-gesteuerte Workflows oder Skripte.
Notebook- und Job-Orchestrierung: Listen Sie Notebooks auf oder exportieren Sie sie, starten Sie Jobs und verwalten Sie programmatisch geplante Aufgaben.
Datenexploration und Abfragen: Verwenden Sie die SQL-Ausführung oder durchsuchen Sie DBFS-Dateien, um LLM-Agenten mit direktem Datenzugriff und Abfragemöglichkeiten zu versorgen.
Integration mit KI-Agenten: Ermöglichen Sie natürliche Sprach- oder Chat-Agentenschnittstellen zu Databricks-Ressourcen (z. B. für interne Datenwissenschaftler oder Support-Bots).
Plattformunabhängige Automatisierung: Tauschen Sie nahtlos LLM-Anbieter aus oder bewegen Sie Tools zwischen Infrastrukturen, indem Sie die MCP-Schnittstelle konsistent halten.

Häufig gestellte Fragen

1. Wie funktioniert die Authentifizierung mit dem Databricks MCP Server?

Die Authentifizierung erfolgt über Umgebungsvariablen (DATABRICKS_HOST und DATABRICKS_TOKEN) oder eine .env-Datei mit der URL Ihrer Databricks-Instanz und dem Zugangstoken. Der Server nutzt diese Anmeldeinformationen, um in Ihrem Namen über die Databricks-REST-API zu handeln.

2. Kann ich den Server erweitern, um mehr Abdeckung der Databricks-API zu bieten?

Ja. Das Projekt ist modular und erweiterbar – fügen Sie einfach neue Tooldefinitionen in den entsprechenden Serverkomponenten hinzu und folgen Sie den bestehenden Beispielen. Beiträge sind über Pull Requests willkommen.

3. Welche Client-Anwendungen können den Databricks MCP Server verwenden?

Jedes Tool oder jeder Agent, der das MCP-Protokoll unterstützt, kann sich verbinden, einschließlich maßgeschneiderter LLM-basierter Assistenten, Workflow-Automatisierungssysteme oder MCP-Demo-Clients. Sehen Sie sich das Verzeichnis examples/ für Nutzungsmuster und Integrationsanleitungen an.

4. Ist es sicher, den Server auf meinem Rechner auszuführen?

Der Server wurde mit Blick auf Sicherheit entwickelt: Er greift nur auf Ressourcen zu, für die Ihre Databricks-Token-Berechtigungen gewährt wurden. Verwenden Sie immer ein Token mit den minimal erforderlichen Berechtigungen und teilen Sie niemals Ihre Anmeldeinformationen.

5. Wie sehe ich, welche Tools verfügbar sind?

Verwenden Sie den Endpunkt tools/list über einen MCP-Client oder ziehen Sie die Dokumentation zu Rate, um alle verfügbaren Tools, deren Namen und Beschreibungen anzuzeigen.

Tool Name	Beschreibung
list_clusters	Gibt eine Liste aller Databricks-Cluster im verbundenen Workspace zurück, zusammen mit ihrem Status und wichtigen Metadaten.
create_cluster	Erstellt einen neuen Databricks-Cluster basierend auf den angegebenen Konfigurationsparametern.
terminate_cluster	Beendet einen bestimmten Databricks-Cluster und gibt dessen Ressourcen frei.
get_cluster	Ruft detaillierte Informationen über einen bestimmten Databricks-Cluster anhand seiner ID ab.
start_cluster	Startet einen beendeten Databricks-Cluster und macht ihn bereit für Jobs und Interaktionen.
list_jobs	Listet alle Jobs auf, die im Databricks-Workspace konfiguriert sind, einschließlich Jobnamen und -typen.
run_job	Initiiert die Ausführung eines bestimmten Databricks-Jobs unter Verwendung seiner Konfiguration oder Job-ID.
list_notebooks	Zeigt alle Notebooks in einem bestimmten Workspace-Verzeichnis an, um das Durchsuchen und Auswählen für weitere Aktionen zu ermöglichen.
export_notebook	Exportiert die Inhalte eines bestimmten Notebooks aus dem Workspace, normalerweise zum Teilen oder Analysieren.
list_files	Listet alle Dateien und Verzeichnisse an einem bestimmten DBFS-Pfad auf, wodurch LLMs oder Benutzer durchsuchen können.
execute_sql	Führt eine bereitgestellte SQL-Anweisung im Databricks-Workspace aus (z. B. zum Abfragen, Analysieren oder Automatisieren).