Projektowanie i realizacja potoków ETL w Apache Spark

Naucz się budować, optymalizować i zarządzać skalowalnymi potokami danych za pomocą PySpark i Hadoop, aby rozpocząć swoją podróż w inżynierii danych.

4.3 (23) ⏱ 1 godz 54 min 📚 7 lekcji 🎧 Wersja audio

O tym kursie

Nowoczesne organizacje generują ogromne ilości danych, co sprawia, że efektywna integracja i transformacja danych jest kluczową umiejętnością dla każdego aspirującego profesjonalisty ds. danych. Apache Spark jest standardem branżowym do szybkiego i niezawodnego przetwarzania dużych zbiorów danych. Ten pisemny kurs przeprowadzi Cię przez podstawowe koncepcje i praktyczne kroki niezbędne do projektowania, realizacji i monitorowania solidnych potoków Extract, Transform, Load (ETL). Przejdziesz od zrozumienia podstawowej terminologii inżynierii danych do budowania ustrukturyzowanych potoków, które czyszczą, agregują i ładują dane do nowoczesnych systemów przechowywania danych. Czego się nauczysz: - Zrozumienie podstawowej architektury Apache Spark, DataFrames i komponentów ekosystemu. - Ekstrakcja danych z różnych źródeł, w tym relacyjnych baz danych, takich jak MySQL, i plików płaskich. - Transformacja zbiorów danych za pomocą funkcji PySpark do filtrowania, łączenia i agregowania. - Efektywne ładowanie przetworzonych danych do docelowych baz danych i nowoczesnych formatów przechowywania, takich jak Parquet. - Stosowanie technik optymalizacji w celu poprawy wydajności potoków i wykorzystania zasobów. - Konfiguracja i strukturyzacja czystego, łatwego w utrzymaniu środowiska projektowego inżynierii danych. Podróż rozpoczyna się od podstawowych definicji i konfiguracji środowiska, zapewniając solidne podstawy koncepcyjne. Następnie przejdziesz przez szczegółowe wyjaśnienia pisemne i analizę kodu, aby zbudować i uruchomić funkcjonalny, kompleksowy potok ETL. Ten kurs jest przeznaczony dla początkujących, którzy chcą wejść w dziedzinę inżynierii danych; nie jest wymagane wcześniejsze doświadczenie z Apache Spark, chociaż podstawowa znajomość Python jest pomocna. Zacznij czytać już dziś, aby zbudować swój pierwszy skalowalny potok danych.

Co otrzymasz

  • 📜 Certyfikat ukończenia
    Dodaj do profilu LinkedIn
  • 🎧 Wersja audio w zestawie
    Ucz się w drodze — bez ekranu
  • ♾️ Dożywotni dostęp
    Wracaj, kiedy chcesz — bez wygaśnięcia
  • 📱 Telefon lub komputer
    Działa wszędzie, na każdym urządzeniu
  • 💸 Zwrot w 30 dni
    Bez pytań
  • Krótko i konkretnie
    1 godz 54 min praktycznej treści

Recenzje

Brak recenzji — bądź pierwszą osobą, która podzieli się doświadczeniem.

Napisz recenzję

Po wysłaniu poprosimy o zalogowanie — szkic zostanie zapisany.

Inni uczyli się też

Najczęstsze pytania

Czego potrzebuję, by wziąć udział w tym kursie? +

Wystarczy telefon lub komputer z internetem. Bez instalacji i specjalnego sprzętu.

Jak zapłacić? +

Kartą przez Stripe lub kryptowalutą. Nie przechowujemy danych karty — robi to bezpiecznie Stripe.

Czy mogę otrzymać zwrot? +

Tak — pełen zwrot w 30 dni, bez pytań.

Jak długo będę mieć dostęp? +

Na zawsze. Po zakupie kurs jest twój — wracaj, kiedy chcesz.

Czy dostanę certyfikat? +

Tak. Po ukończeniu otrzymasz certyfikat, który możesz dodać do profilu LinkedIn.

Stworzony dla uczących się w
IT Design Finanse Marketing Ochrona zdrowia Edukacja Hotelarstwo Produkcja