AWS Data Processing MCP Server

AWS Data Processing MCP Server

Le serveur AWS Data Processing MCP est un serveur spécialisé dans le protocole de contexte de modèle (MCP). Il permet aux assistants IA, agents de codage et flux de travail d'interagir avec les services de traitement de données AWS, comme AWS Glue et Amazon EMR-EC2. Il offre une visibilité des pipelines en temps réel et des opérations de données complètes, permettant aux modèles de langage de grande taille (LLM) d'accéder, orchestrer, surveiller et gérer les flux de travail de données par programmation, améliorant ainsi la productivité et l'automatisation dans les tâches d'ingénierie des données basées sur le cloud.

Author: awslabs


Voir le Protocole

Qu'est-ce que le serveur AWS Data Processing MCP ?

Le serveur AWS Data Processing MCP est un serveur compatible MCP qui expose les capacités de traitement de données AWS, notamment pour des services comme AWS Glue et Amazon EMR-EC2. En intégrant ce serveur, vos assistants IA ou agents autonomes peuvent réaliser l'orchestration de pipelines de données, des opérations ETL (Extraire, Transformer, Charger), la surveillance des emplois, le dépannage et l'automatisation au sein de votre environnement AWS existant. Cela comble le fossé entre le développement piloté par IA et l'ingénierie des données en cloud, facilitant l'automatisation, l'optimisation et le dimensionnement de vos flux de travail de données.

Comment configurer

  1. Prérequis : Assurez-vous d'avoir uv installé, Python disponible (par ex. uv python install 3.10), et vos identifiants AWS configurés pour les services que vous souhaitez gérer.
  2. Ajouter au client MCP : Ajoutez le serveur AWS Data Processing MCP à votre fichier de configuration de client MCP (par ex. mcp.json, cline_mcp_settings.json ou ~/.codeium/windsurf/mcp_config.json), en spécifiant la commande, les arguments et les variables d'environnement requises.
    {
      "awslabs.aws-dataprocessing-mcp-server": {
        "command": "uvx",
        "args": ["awslabs.aws-dataprocessing-mcp-server@latest"],
        "env": {
          "AWS_PROFILE": "votre-profil-aws",
          "AWS_REGION": "us-east-1",
          "FASTMCP_LOG_LEVEL": "ERROR"
        }
      }
    }
    
  3. Accorder les permissions : Assurez-vous que votre profil AWS dispose des permissions IAM nécessaires pour interagir avec Glue, EMR et d'autres services requis.
  4. Utilisation de conteneurs : Facultativement, exécutez-le dans un conteneur Docker, en utilisant --env-file et en montant vos identifiants AWS pour une exécution sécurisée.
  5. Vérification : Validez la configuration du serveur en exécutant une commande de base ou en consultant les outils disponibles depuis votre client MCP.

Comment utiliser

  • Dans votre assistant de codage (par ex. Cline, Cursor, Claude ou Windsurf), assurez-vous que le serveur AWS Data Processing MCP est activé.
  • Depuis l'interface de chat IA ou de commande, demandez des actions telles que :
    • "Lister tous les pipelines de données Glue."
    • "Démarrer un emploi EMR pour traiter ce jeu de données."
    • "Surveiller cet workflow ETL pour détecter des erreurs."
    • "Quelles tables sont actuellement enregistrées dans le Catalogue Glue ?"
  • L'agent IA utilisera les outils du serveur MCP (fonctions) pour exécuter ces opérations, afficher les progrès et retourner les résultats.
  • Pour l'automatisation, les processus en arrière-plan ou les agents de flux de travail, automatisez les tâches de données en orchestrant les appels d'outils du serveur dans le code.
  • Utilisez les points de terminaison du serveur, comme tools/list pour les opérations disponibles et tools/call pour l'invocation directe des tâches.

Caractéristiques principales

  • Visibilité en temps réel des pipelines : Surveillez, déboguez et analysez les exécutions de travaux et les pipelines AWS Glue et EMR.
  • Orchestration de flux de travail par programmation : Démarrez, arrêtez et gérez des travaux de traitement de données avec des invocations d'outils simples.
  • Intégration unifiée LLM : Apportez des opérations de données AWS dans n'importe quel agent, interface de chat ou outil d'automatisation de flux de travail alimenté par LLM.
  • Support ETL complet : Créez, mettez à jour et planifiez des workflows ETL à travers vos lacs de données et environnements cloud.
  • Opérations sécurisées : Se connecte via vos identifiants AWS et fait respecter vos politiques IAM.
  • Rapports d'erreur et dépannage : Récupérez les journaux, l'état et les détails des erreurs pour des diagnostics et une réponse plus rapides.
  • Découverte et documentation des outils : Listez facilement les opérations disponibles et obtenez des descriptions des outils au sein de votre client MCP.

Cas d'utilisation

  • Ingénierie des données pilotée par IA : Génération, gestion ou dépannage automatique des emplois Glue/EMR à partir des invites du modèle de langage.
  • Surveillance et alertes des pipelines : Observez l'état du flux de travail, récupérez les sorties d'emploi et déclenchez des notifications Slack/email en cas d'échec.
  • DataOps conversationnel : Posez des questions en langage naturel sur vos pipelines de données, états récents des emplois ou exécutions historiques et obtenez des réponses structurées instantanément.
  • Orchestration ETL automatisée : Planifiez, mettez à jour et coordonnez des workflows ETL multi-étapes utilisant des agents contrôlés par LLM.
  • Exploration du catalogue de données : Lister les tables, partitions et schémas disponibles à partir du Catalogue de données Glue pour des tâches d'analyse ou de conformité.
  • Pipelines de données en libre-service : Permettez aux utilisateurs moins techniques d'effectuer des opérations de données grâce à des interfaces en langage naturel intégrant le serveur MCP.
  • Agents en arrière-plan sans tête : Implementer des agents autonomes pour des vérifications de santé de pipeline de données, redémarrages automatisés et remédiation d'erreurs incrémentales.

FAQ

1. Quels services AWS ce serveur MCP prend-il en charge ?

Le serveur AWS Data Processing MCP prend principalement en charge AWS Glue et Amazon EMR-EC2, mais peut également s'intégrer avec des services de données connexes comme Glue Data Catalog. Vérifiez les outils disponibles du serveur pour une liste complète.

2. Comment fonctionne l'authentification et le contrôle d'accès ?

Le serveur utilise vos identifiants AWS configurés et la région. Vos opérations sont régies par les politiques IAM de votre profil AWS, garantissant que les actions respectent vos normes de sécurité.

3. Puis-je utiliser ce serveur pour déclencher, surveiller et arrêter des emplois depuis une interface de chat IA ?

Oui ! Les outils exposés vous permettent de démarrer, arrêter, surveiller ou interroger à la fois les emplois Glue et EMR en temps réel, directement depuis des assistants de codage IA ou des flux de travail.

4. Est-il possible d'exécuter le serveur à l'intérieur d'un conteneur ?

Absolument. Le serveur peut être conteneurisé (par ex. avec Docker), en montant vos identifiants .aws et en passant des variables d'environnement avec les options --env-file et --volume.

5. Comment puis-je dépanner si mes emplois ne s'exécutent pas comme prévu ?

Vous pouvez utiliser les outils disponibles pour récupérer les journaux d'emploi, l'état et les erreurs. De plus, assurez-vous que vos permissions IAM incluent toutes les API Glue, EMR et de journalisation pertinentes.