Projektowanie i realizacja potoków ETL w Apache Spark
Naucz się budować, optymalizować i zarządzać skalowalnymi potokami danych za pomocą PySpark i Hadoop, aby rozpocząć swoją podróż w inżynierii danych.
O tym kursie
Nowoczesne organizacje generują ogromne ilości danych, co sprawia, że efektywna integracja i transformacja danych jest kluczową umiejętnością dla każdego aspirującego profesjonalisty ds. danych. Apache Spark jest standardem branżowym do szybkiego i niezawodnego przetwarzania dużych zbiorów danych.
Ten pisemny kurs przeprowadzi Cię przez podstawowe koncepcje i praktyczne kroki niezbędne do projektowania, realizacji i monitorowania solidnych potoków Extract, Transform, Load (ETL). Przejdziesz od zrozumienia podstawowej terminologii inżynierii danych do budowania ustrukturyzowanych potoków, które czyszczą, agregują i ładują dane do nowoczesnych systemów przechowywania danych.
Czego się nauczysz:
- Zrozumienie podstawowej architektury Apache Spark, DataFrames i komponentów ekosystemu.
- Ekstrakcja danych z różnych źródeł, w tym relacyjnych baz danych, takich jak MySQL, i plików płaskich.
- Transformacja zbiorów danych za pomocą funkcji PySpark do filtrowania, łączenia i agregowania.
- Efektywne ładowanie przetworzonych danych do docelowych baz danych i nowoczesnych formatów przechowywania, takich jak Parquet.
- Stosowanie technik optymalizacji w celu poprawy wydajności potoków i wykorzystania zasobów.
- Konfiguracja i strukturyzacja czystego, łatwego w utrzymaniu środowiska projektowego inżynierii danych.
Podróż rozpoczyna się od podstawowych definicji i konfiguracji środowiska, zapewniając solidne podstawy koncepcyjne. Następnie przejdziesz przez szczegółowe wyjaśnienia pisemne i analizę kodu, aby zbudować i uruchomić funkcjonalny, kompleksowy potok ETL.
Ten kurs jest przeznaczony dla początkujących, którzy chcą wejść w dziedzinę inżynierii danych; nie jest wymagane wcześniejsze doświadczenie z Apache Spark, chociaż podstawowa znajomość Python jest pomocna.
Zacznij czytać już dziś, aby zbudować swój pierwszy skalowalny potok danych.
Co otrzymasz
-
📜
Certyfikat ukończenia
Dodaj do profilu LinkedIn -
🎧
Wersja audio w zestawie
Ucz się w drodze — bez ekranu -
♾️
Dożywotni dostęp
Wracaj, kiedy chcesz — bez wygaśnięcia -
📱
Telefon lub komputer
Działa wszędzie, na każdym urządzeniu -
💸
Zwrot w 30 dni
Bez pytań -
⚡
Krótko i konkretnie
1 godz 54 min praktycznej treści
Recenzje
Brak recenzji — bądź pierwszą osobą, która podzieli się doświadczeniem.
Inni uczyli się też
Dowiedz się, jak skutecznie indeksować, zapytać i zoptymalizować dane w Elasticsearch, umożliwiając tworzenie zaawansowanych rozwiązań wyszukiwania i analizy.
$4.99$9.99
Naucz się projektować, budować i zarządzać skalowalnymi chmurowymi potokami danych i schematami przy użyciu Snowflake SQL i nowoczesnych zasad hurtowni danych.
$4.99$9.99
Dowiedz się, jak dane przepływają przez nowoczesne organizacje, badając architektury potoków, rozwiązania pamięci masowej i procesy czyszczenia danych zaprojektowane dla początkujących profesjonalistów.
$4.99$9.99
Poznaj podstawowe zasady hurtowni danych, modelowania wymiarowego i nowoczesnych architektur chmurowych, aby zaprojektować wydajne analityczne bazy danych.
$4.99$9.99
Najczęstsze pytania
Czego potrzebuję, by wziąć udział w tym kursie? +
Wystarczy telefon lub komputer z internetem. Bez instalacji i specjalnego sprzętu.
Jak zapłacić? +
Kartą przez Stripe lub kryptowalutą. Nie przechowujemy danych karty — robi to bezpiecznie Stripe.
Czy mogę otrzymać zwrot? +
Tak — pełen zwrot w 30 dni, bez pytań.
Jak długo będę mieć dostęp? +
Na zawsze. Po zakupie kurs jest twój — wracaj, kiedy chcesz.
Czy dostanę certyfikat? +
Tak. Po ukończeniu otrzymasz certyfikat, który możesz dodać do profilu LinkedIn.
Stworzony dla uczących się w
IT
Design
Finanse
Marketing
Ochrona zdrowia
Edukacja
Hotelarstwo
Produkcja