Проектирование и выполнение конвейера ETL на Apache Spark

Научитесь создавать, оптимизировать и управлять масштабируемыми конвейерами данных с помощью PySpark и Hadoop, чтобы начать свой путь в области инженерии данных.

4.3 (23) ⏱ 1 ч 54 мин 📚 7 уроков 🎧 Аудиоверсия

О курсе

Современные организации генерируют огромные объемы данных, что делает эффективную интеграцию и преобразование данных критически важным навыком для любого начинающего специалиста по данным. Apache Spark является отраслевым стандартом для быстрой и надежной обработки больших наборов данных. Этот письменный курс проведет вас через основополагающие концепции и практические шаги, необходимые для проектирования, выполнения и мониторинга надежных конвейеров Extract, Transform, Load (ETL). Вы перейдете от понимания базовой терминологии инженерии данных к созданию структурированных конвейеров, которые очищают, агрегируют и загружают данные в современные системы хранения. Что вы узнаете: - Понимание основной архитектуры Apache Spark, DataFrames и компонентов экосистемы. - Извлечение данных из различных источников, включая реляционные базы данных, такие как MySQL, и плоские файлы. - Преобразование наборов данных с помощью функций PySpark для фильтрации, объединения и агрегирования. - Эффективная загрузка обработанных данных в целевые базы данных и современные форматы хранения, такие как Parquet. - Применение методов оптимизации для улучшения производительности конвейера и использования ресурсов. - Настройка и структурирование чистой, поддерживаемой среды проекта инженерии данных. Путешествие начинается с основных определений и настройки среды, обеспечивая прочную концептуальную основу. Затем вы перейдете к пошаговым письменным объяснениям и анализу кода для создания и запуска функционального, сквозного конвейера ETL. Этот курс предназначен для начинающих, которые хотят войти в область инженерии данных; предварительный опыт работы с Apache Spark не требуется, хотя базовое понимание Python полезно. Начните читать сегодня, чтобы создать свой первый масштабируемый конвейер данных.

Что вы получите

  • 📜 Сертификат об окончании
    Добавьте в профиль LinkedIn
  • 🎧 Аудиоверсия включена
    Учитесь в дороге — экран не нужен
  • ♾️ Пожизненный доступ
    Возвращайтесь в любое время, без срока
  • 📱 Телефон или компьютер
    Работает везде и на любом устройстве
  • 💸 Возврат в течение 30 дней
    Без вопросов
  • Кратко и по делу
    1 ч 54 мин практического материала

Отзывы

Отзывов пока нет — поделитесь своим первым.

Написать отзыв

После отправки попросим войти — черновик сохранится.

Студенты также прошли

Elasticsearch: индексирование, запрос и оптимизация данных

Узнайте, как эффективно индексировать, запрашивать и оптимизировать данные в Elasticsearch, что позволит вам создавать мощные решения для поиска и анализа.
★ 5.0 (17)
$4.99$9.99

Основы инжиниринга данных в Snowflake

Научитесь проектировать, создавать и управлять масштабируемыми облачными конвейерами данных и схемами, используя Snowflake SQL и современные принципы хранилищ данных.
★ 4.9 (16)
$4.99$9.99

Основы инженерии данных: конвейеры, хранилища и рабочие процессы

Узнайте, как данные проходят через современные организации, изучая архитектуры конвейеров, решения для хранения и процессы очистки данных, предназначенные для начинающих профессионалов.
★ 4.9 (1,002)
$4.99$9.99

Основы хранилищ данных: разработка современных решений для работы с данными.

Изучите основные принципы хранилищ данных, многомерного моделирования и современных облачных архитектур для проектирования эффективных аналитических баз данных.
★ 4.8 (4,475)
$4.99$9.99

Часто спрашивают

Что нужно для прохождения курса? +

Только смартфон или компьютер с доступом в интернет. Никаких установок и оборудования.

Как оплатить? +

Банковской картой через Stripe или криптовалютой. Данные карты обрабатывает Stripe — мы их не храним.

Можно ли вернуть деньги? +

Да — полный возврат в течение 30 дней, без вопросов.

Как долго будут доступны материалы? +

Навсегда. После покупки курс остаётся с вами — возвращайтесь в любое время.

Получу ли я сертификат? +

Да. По окончании выдаётся сертификат, который можно добавить в профиль LinkedIn.

Подходит для специалистов в
IT Дизайн Финансы Маркетинг Медицина Образование HoReCa Производство