AWS Data Processing MCP Server

Qu'est-ce que le serveur AWS Data Processing MCP ?

Le serveur AWS Data Processing MCP est un serveur compatible MCP qui expose les capacités de traitement de données AWS, notamment pour des services comme AWS Glue et Amazon EMR-EC2. En intégrant ce serveur, vos assistants IA ou agents autonomes peuvent réaliser l'orchestration de pipelines de données, des opérations ETL (Extraire, Transformer, Charger), la surveillance des emplois, le dépannage et l'automatisation au sein de votre environnement AWS existant. Cela comble le fossé entre le développement piloté par IA et l'ingénierie des données en cloud, facilitant l'automatisation, l'optimisation et le dimensionnement de vos flux de travail de données.

Comment configurer

Prérequis : Assurez-vous d'avoir uv installé, Python disponible (par ex. uv python install 3.10), et vos identifiants AWS configurés pour les services que vous souhaitez gérer.
Ajouter au client MCP : Ajoutez le serveur AWS Data Processing MCP à votre fichier de configuration de client MCP (par ex. mcp.json, cline_mcp_settings.json ou ~/.codeium/windsurf/mcp_config.json), en spécifiant la commande, les arguments et les variables d'environnement requises.
```
{
  "awslabs.aws-dataprocessing-mcp-server": {
    "command": "uvx",
    "args": ["awslabs.aws-dataprocessing-mcp-server@latest"],
    "env": {
      "AWS_PROFILE": "votre-profil-aws",
      "AWS_REGION": "us-east-1",
      "FASTMCP_LOG_LEVEL": "ERROR"
    }
  }
}
```
Accorder les permissions : Assurez-vous que votre profil AWS dispose des permissions IAM nécessaires pour interagir avec Glue, EMR et d'autres services requis.
Utilisation de conteneurs : Facultativement, exécutez-le dans un conteneur Docker, en utilisant --env-file et en montant vos identifiants AWS pour une exécution sécurisée.
Vérification : Validez la configuration du serveur en exécutant une commande de base ou en consultant les outils disponibles depuis votre client MCP.

Comment utiliser

Dans votre assistant de codage (par ex. Cline, Cursor, Claude ou Windsurf), assurez-vous que le serveur AWS Data Processing MCP est activé.
Depuis l'interface de chat IA ou de commande, demandez des actions telles que :
- "Lister tous les pipelines de données Glue."
- "Démarrer un emploi EMR pour traiter ce jeu de données."
- "Surveiller cet workflow ETL pour détecter des erreurs."
- "Quelles tables sont actuellement enregistrées dans le Catalogue Glue ?"
L'agent IA utilisera les outils du serveur MCP (fonctions) pour exécuter ces opérations, afficher les progrès et retourner les résultats.
Pour l'automatisation, les processus en arrière-plan ou les agents de flux de travail, automatisez les tâches de données en orchestrant les appels d'outils du serveur dans le code.
Utilisez les points de terminaison du serveur, comme tools/list pour les opérations disponibles et tools/call pour l'invocation directe des tâches.

Caractéristiques principales

Visibilité en temps réel des pipelines : Surveillez, déboguez et analysez les exécutions de travaux et les pipelines AWS Glue et EMR.
Orchestration de flux de travail par programmation : Démarrez, arrêtez et gérez des travaux de traitement de données avec des invocations d'outils simples.
Intégration unifiée LLM : Apportez des opérations de données AWS dans n'importe quel agent, interface de chat ou outil d'automatisation de flux de travail alimenté par LLM.
Support ETL complet : Créez, mettez à jour et planifiez des workflows ETL à travers vos lacs de données et environnements cloud.
Opérations sécurisées : Se connecte via vos identifiants AWS et fait respecter vos politiques IAM.
Rapports d'erreur et dépannage : Récupérez les journaux, l'état et les détails des erreurs pour des diagnostics et une réponse plus rapides.
Découverte et documentation des outils : Listez facilement les opérations disponibles et obtenez des descriptions des outils au sein de votre client MCP.

Cas d'utilisation

Ingénierie des données pilotée par IA : Génération, gestion ou dépannage automatique des emplois Glue/EMR à partir des invites du modèle de langage.
Surveillance et alertes des pipelines : Observez l'état du flux de travail, récupérez les sorties d'emploi et déclenchez des notifications Slack/email en cas d'échec.
DataOps conversationnel : Posez des questions en langage naturel sur vos pipelines de données, états récents des emplois ou exécutions historiques et obtenez des réponses structurées instantanément.
Orchestration ETL automatisée : Planifiez, mettez à jour et coordonnez des workflows ETL multi-étapes utilisant des agents contrôlés par LLM.
Exploration du catalogue de données : Lister les tables, partitions et schémas disponibles à partir du Catalogue de données Glue pour des tâches d'analyse ou de conformité.
Pipelines de données en libre-service : Permettez aux utilisateurs moins techniques d'effectuer des opérations de données grâce à des interfaces en langage naturel intégrant le serveur MCP.
Agents en arrière-plan sans tête : Implementer des agents autonomes pour des vérifications de santé de pipeline de données, redémarrages automatisés et remédiation d'erreurs incrémentales.

FAQ

1. Quels services AWS ce serveur MCP prend-il en charge ?

Le serveur AWS Data Processing MCP prend principalement en charge AWS Glue et Amazon EMR-EC2, mais peut également s'intégrer avec des services de données connexes comme Glue Data Catalog. Vérifiez les outils disponibles du serveur pour une liste complète.

2. Comment fonctionne l'authentification et le contrôle d'accès ?

Le serveur utilise vos identifiants AWS configurés et la région. Vos opérations sont régies par les politiques IAM de votre profil AWS, garantissant que les actions respectent vos normes de sécurité.

3. Puis-je utiliser ce serveur pour déclencher, surveiller et arrêter des emplois depuis une interface de chat IA ?

Oui ! Les outils exposés vous permettent de démarrer, arrêter, surveiller ou interroger à la fois les emplois Glue et EMR en temps réel, directement depuis des assistants de codage IA ou des flux de travail.

4. Est-il possible d'exécuter le serveur à l'intérieur d'un conteneur ?

Absolument. Le serveur peut être conteneurisé (par ex. avec Docker), en montant vos identifiants .aws et en passant des variables d'environnement avec les options --env-file et --volume.

5. Comment puis-je dépanner si mes emplois ne s'exécutent pas comme prévu ?

Vous pouvez utiliser les outils disponibles pour récupérer les journaux d'emploi, l'état et les erreurs. De plus, assurez-vous que vos permissions IAM incluent toutes les API Glue, EMR et de journalisation pertinentes.

Nom du Protocole	Description
list_glue_jobs	Retourne une liste de tous les emplois AWS Glue au sein du compte AWS configuré et de la région, y compris les noms d'emploi, descriptions et états.
start_glue_job	Démarre un emploi AWS Glue avec les paramètres fournis et fournit un ID d'exécution d'emploi et un lien de surveillance en temps réel ou un état.
get_glue_job_status	Récupère l'état actuel, les journaux et les messages d'erreur (le cas échéant) pour une exécution spécifique d'emploi Glue par nom d'emploi et ID d'exécution.
list_emr_clusters	Retourne une liste des clusters EMR, leur état/santé, dates de création et configurations.
submit_emr_job	Soumet un emploi (étape) à un cluster EMR existant, y compris le support pour Spark, Hive ou des charges de travail personnalisées.
get_emr_job_status	Récupère l'état d'exécution et les journaux pour les emplois ou étapes EMR, y compris les détails des erreurs pour les exécutions échouées.
list_glue_catalog_tables	Liste toutes les tables dans le Catalogue de données AWS Glue, éventuellement filtrées par base de données ou préfixe, y compris les détails de schéma.