Conception et exécution de pipelines ETL Apache Spark

Apprenez à construire, optimiser et gérer des pipelines de données évolutifs en utilisant PySpark et Hadoop pour lancer votre parcours d'ingénierie de données.

4.3 (23) ⏱ 1 h 54 min 📚 7 leçons 🎧 Version audio

À propos de ce cours

Les organisations modernes génèrent des volumes massifs de données, faisant de l'intégration et de la transformation efficaces des données une compétence essentielle pour tout professionnel des données en herbe. Apache Spark est la norme de l'industrie pour le traitement rapide et fiable de grands ensembles de données. Ce cours écrit vous guide à travers les concepts fondamentaux et les étapes pratiques nécessaires pour concevoir, exécuter et surveiller des pipelines robustes d'extraction, de transformation et de chargement (ETL). Vous passerez de la compréhension de la terminologie de base de l'ingénierie de données à la construction de pipelines structurés qui nettoient, agrègent et chargent les données dans des systèmes de stockage modernes. Ce que vous apprendrez : - Comprendre l'architecture centrale d'Apache Spark, les DataFrames et les composants de l'écosystème. - Extraire des données de diverses sources, y compris des bases de données relationnelles comme MySQL et des fichiers plats. - Transformer des ensembles de données à l'aide de fonctions PySpark pour le filtrage, la jointure et l'agrégation. - Charger efficacement les données traitées dans des bases de données cibles et des formats de stockage modernes comme Parquet. - Appliquer des techniques d'optimisation pour améliorer les performances des pipelines et l'utilisation des ressources. - Configurer et structurer un environnement de projet d'ingénierie de données propre et maintenable. Le parcours commence par des définitions essentielles et la configuration de l'environnement, garantissant une base conceptuelle solide. Vous progresserez ensuite à travers des explications écrites étape par étape et une analyse de code pour construire et exécuter un pipeline ETL fonctionnel de bout en bout. Ce cours est conçu pour les débutants qui souhaitent entrer dans le domaine de l'ingénierie de données ; aucune expérience préalable avec Apache Spark n'est requise, bien qu'une compréhension de base de Python soit utile. Commencez à lire dès aujourd'hui pour construire votre premier pipeline de données évolutif.

Ce que vous recevez

  • 📜 Certificat de fin
    Ajoutez-le à votre profil LinkedIn
  • 🎧 Version audio incluse
    Apprenez en déplacement, sans écran
  • ♾️ Accès à vie
    Revenez quand vous voulez, sans expiration
  • 📱 Téléphone ou ordinateur
    Fonctionne partout, sur tout appareil
  • 💸 Remboursement 30 jours
    Sans poser de questions
  • Court et ciblé
    1 h 54 min de contenu pratique

Avis

Pas encore d'avis — soyez le premier à partager votre expérience.

Écrire un avis

Nous vous demanderons de vous connecter après envoi — votre brouillon est sauvegardé.

Autres apprenants ont aussi suivi

Questions fréquentes

De quoi ai-je besoin pour suivre ce cours ? +

Un téléphone ou un ordinateur avec internet, c'est tout. Aucune installation, aucun matériel spécial.

Comment payer ? +

Carte via Stripe ou cryptomonnaie. Nous ne stockons pas les données de carte — Stripe les gère de manière sécurisée.

Puis-je obtenir un remboursement ? +

Oui — remboursement complet sous 30 jours, sans question.

Combien de temps aurai-je accès ? +

À vie. Une fois acheté, le cours est à vous, vous pouvez y revenir quand vous voulez.

Vais-je obtenir un certificat ? +

Oui. À la fin, vous recevez un certificat à ajouter à votre profil LinkedIn.

Conçu pour les apprenants en
Tech Design Finance Marketing Santé Éducation Hôtellerie Industrie