Databricks MCP Server

¿Qué es el servidor Databricks MCP?

El servidor Databricks MCP es un servidor ligero que conecta las API de la plataforma Databricks con aplicaciones impulsadas por IA a través del protocolo MCP. Expone funcionalidad de Databricks como herramientas ejecutables que los modelos de lenguaje y los sistemas de automatización pueden invocar, facilitando la interacción y automatización de los recursos de Databricks de manera programática y estandarizada.

Cómo configurar el servidor Databricks MCP

Instalar los prerrequisitos: Asegúrate de tener Python 3.10+ y instalar el gestor de paquetes uv para la gestión fácil del entorno.

Clonar el repositorio:

git clone https://github.com/JustTryAI/databricks-mcp-server.git
cd databricks-mcp-server

Configurar el proyecto:
Usa uv venv para crear un entorno virtual e instalar dependencias:

uv venv
# Activa venv e instala dependencias según las instrucciones de tu SO
uv pip install -e .
uv pip install -e ".[dev]"

Configurar variables de entorno:
Establece DATABRICKS_HOST a la URL de tu espacio de trabajo de Databricks y DATABRICKS_TOKEN a tu token de acceso personal. Puedes usar un archivo .env o configurarlos directamente en tu terminal.
(Opcional) Revisa .env.example para una configuración de plantilla y mejores prácticas.

Cómo usar el servidor Databricks MCP

Iniciar el servidor:
Usa los scripts proporcionados para iniciar el servidor MCP:
```
# Windows
.\start_mcp_server.ps1
# Linux/Mac
./start_mcp_server.sh
```
Invocar herramientas a través de clientes MCP:
Conecta tu aplicación o agente compatible con MCP al servidor en funcionamiento. El servidor expone operaciones de Databricks como herramientas, descubribles y llamables a través del protocolo MCP (tools/list, tools/call).
Scripts de utilidad:
Usa los scripts incluidos en el directorio scripts/ (por ejemplo, show_clusters.py, show_notebooks.py) para interactuar directamente con los recursos de Databricks o como ejemplos para automatización personalizada.

Características clave

Soporte completo del protocolo MCP para una integración estandarizada de LLM
Expone las principales características de Databricks (clusters, trabajos, cuadernos, acceso a archivos DBFS, ejecución de SQL) como herramientas llamables
Construido sobre asyncio para un funcionamiento eficiente y concurrente
Fácilmente extensible con nuevas herramientas para una mayor cobertura de la API de Databricks
Funciona de manera segura dentro de tu infraestructura de datos usando tokens de acceso personal y aislamiento del entorno
Scripts de utilidad preconstruidos y estructura de proyecto clara para mayor comodidad.

Casos de uso

Gestión automatizada de clusters: Crea, lista, termina o inicia clusters dinámicamente a través de flujos de trabajo o scripts impulsados por LLM.
Orquestación de cuadernos y trabajos: Lista o exporta cuadernos, ejecuta trabajos y gestiona tareas programadas de manera programática.
Exploración de datos y consultas: Usa la ejecución de SQL o navega por archivos de DBFS para empoderar a los agentes LLM con acceso a datos y capacidades de consulta directamente desde el espacio de trabajo.
Integración con agentes de IA: Permite interfaces de lenguaje natural o agentes de chat para los recursos de Databricks (por ejemplo, para científicos de datos internos o bots de soporte).
Automatización independiente de la plataforma: Cambia fácilmente entre proveedores de LLM o mueve herramientas entre infraestructuras manteniendo la interfaz MCP consistente.

FAQ

1. ¿Cómo funciona la autenticación con el servidor Databricks MCP?

La autenticación se maneja a través de variables de entorno (DATABRICKS_HOST y DATABRICKS_TOKEN) o un archivo .env que contiene la URL de tu instancia de Databricks y el token de acceso. El servidor utiliza estas credenciales para realizar acciones en tu nombre a través de la API REST de Databricks.

2. ¿Puedo extender el servidor para añadir más cobertura de la API de Databricks?

Sí. El proyecto es modular y extensible: simplemente añade nuevas definiciones de herramientas dentro de los componentes apropiados del servidor, siguiendo ejemplos existentes. Las contribuciones son bienvenidas a través de Pull Requests.

3. ¿Qué aplicaciones cliente pueden usar el servidor Databricks MCP?

Cualquier herramienta o agente que hable el protocolo MCP puede conectarse, incluyendo asistentes personalizados basados en LLM, sistemas de automatización de flujos de trabajo, o clientes de demostración MCP. Consulta el directorio examples/ para ver ejemplos de uso y guías de integración.

4. ¿Es seguro ejecutar el servidor en mi máquina?

El servidor está diseñado para ser seguro: solo accede a recursos con los permisos otorgados a tu token de Databricks. Siempre usa un token con los permisos mínimos requeridos y nunca compartas tus credenciales.

5. ¿Cómo puedo ver qué herramientas están disponibles?

Usa el endpoint tools/list a través de un cliente MCP o consulta la documentación para ver todas las herramientas expuestas, sus nombres y descripciones.

Nombre del Protocolo	Descripción
list_clusters	Devuelve una lista de todos los clusters de Databricks en el espacio de trabajo conectado, junto con su estado y metadatos clave.
create_cluster	Crea un nuevo cluster de Databricks basado en los parámetros de configuración proporcionados.
terminate_cluster	Termina un cluster de Databricks especificado, liberando sus recursos.
get_cluster	Recupera información detallada sobre un cluster de Databricks específico por su ID.
start_cluster	Inicia un cluster de Databricks terminado, preparándolo para trabajos e interacciones.
list_jobs	Lista todos los trabajos configurados en el espacio de trabajo de Databricks, incluyendo los nombres y tipos de trabajos.
run_job	Inicia la ejecución de un trabajo específico de Databricks usando su configuración o ID de trabajo.
list_notebooks	Muestra todos los cuadernos en un directorio dado del espacio de trabajo, permitiendo navegar y seleccionar para acciones posteriores.
export_notebook	Exporta el contenido de un cuaderno específico desde el espacio de trabajo, normalmente para compartir o análisis.
list_files	Lista todos los archivos y directorios en una ruta especificada de DBFS, permitiendo a los LLM o usuarios navegar por el sistema de archivos distribuido.
execute_sql	Ejecuta una declaración SQL proporcionada en el espacio de trabajo de Databricks (por ejemplo, para consultas, análisis o automatización).