Проектирование и выполнение конвейера ETL на Apache Spark
Научитесь создавать, оптимизировать и управлять масштабируемыми конвейерами данных с помощью PySpark и Hadoop, чтобы начать свой путь в области инженерии данных.
О курсе
Современные организации генерируют огромные объемы данных, что делает эффективную интеграцию и преобразование данных критически важным навыком для любого начинающего специалиста по данным. Apache Spark является отраслевым стандартом для быстрой и надежной обработки больших наборов данных.
Этот письменный курс проведет вас через основополагающие концепции и практические шаги, необходимые для проектирования, выполнения и мониторинга надежных конвейеров Extract, Transform, Load (ETL). Вы перейдете от понимания базовой терминологии инженерии данных к созданию структурированных конвейеров, которые очищают, агрегируют и загружают данные в современные системы хранения.
Что вы узнаете:
- Понимание основной архитектуры Apache Spark, DataFrames и компонентов экосистемы.
- Извлечение данных из различных источников, включая реляционные базы данных, такие как MySQL, и плоские файлы.
- Преобразование наборов данных с помощью функций PySpark для фильтрации, объединения и агрегирования.
- Эффективная загрузка обработанных данных в целевые базы данных и современные форматы хранения, такие как Parquet.
- Применение методов оптимизации для улучшения производительности конвейера и использования ресурсов.
- Настройка и структурирование чистой, поддерживаемой среды проекта инженерии данных.
Путешествие начинается с основных определений и настройки среды, обеспечивая прочную концептуальную основу. Затем вы перейдете к пошаговым письменным объяснениям и анализу кода для создания и запуска функционального, сквозного конвейера ETL.
Этот курс предназначен для начинающих, которые хотят войти в область инженерии данных; предварительный опыт работы с Apache Spark не требуется, хотя базовое понимание Python полезно.
Начните читать сегодня, чтобы создать свой первый масштабируемый конвейер данных.
Что вы получите
-
📜
Сертификат об окончании
Добавьте в профиль LinkedIn -
🎧
Аудиоверсия включена
Учитесь в дороге — экран не нужен -
♾️
Пожизненный доступ
Возвращайтесь в любое время, без срока -
📱
Телефон или компьютер
Работает везде и на любом устройстве -
💸
Возврат в течение 30 дней
Без вопросов -
⚡
Кратко и по делу
1 ч 54 мин практического материала
Отзывы
Отзывов пока нет — поделитесь своим первым.
Студенты также прошли
Узнайте, как эффективно индексировать, запрашивать и оптимизировать данные в Elasticsearch, что позволит вам создавать мощные решения для поиска и анализа.
$4.99$9.99
Научитесь проектировать, создавать и управлять масштабируемыми облачными конвейерами данных и схемами, используя Snowflake SQL и современные принципы хранилищ данных.
$4.99$9.99
Узнайте, как данные проходят через современные организации, изучая архитектуры конвейеров, решения для хранения и процессы очистки данных, предназначенные для начинающих профессионалов.
$4.99$9.99
Изучите основные принципы хранилищ данных, многомерного моделирования и современных облачных архитектур для проектирования эффективных аналитических баз данных.
$4.99$9.99
Часто спрашивают
Что нужно для прохождения курса? +
Только смартфон или компьютер с доступом в интернет. Никаких установок и оборудования.
Как оплатить? +
Банковской картой через Stripe или криптовалютой. Данные карты обрабатывает Stripe — мы их не храним.
Можно ли вернуть деньги? +
Да — полный возврат в течение 30 дней, без вопросов.
Как долго будут доступны материалы? +
Навсегда. После покупки курс остаётся с вами — возвращайтесь в любое время.
Получу ли я сертификат? +
Да. По окончании выдаётся сертификат, который можно добавить в профиль LinkedIn.
Подходит для специалистов в
IT
Дизайн
Финансы
Маркетинг
Медицина
Образование
HoReCa
Производство