Projeto e Execução de Pipelines ETL com Apache Spark
Aprenda a construir, otimizar e gerenciar pipelines de dados escaláveis usando PySpark e Hadoop para iniciar sua jornada em engenharia de dados.
Sobre este curso
Organizações modernas geram volumes massivos de dados, tornando a integração e transformação de dados eficientes uma habilidade crítica para qualquer profissional de dados aspirante. Apache Spark é o padrão da indústria para processar grandes conjuntos de dados de forma rápida e confiável.
Este curso escrito o guiará pelos conceitos fundamentais e passos práticos necessários para projetar, executar e monitorar pipelines robustos de Extração, Transformação e Carga (ETL). Você transitará do entendimento da terminologia básica de engenharia de dados para a construção de pipelines estruturados que limpam, agregam e carregam dados em sistemas de armazenamento modernos.
O que você aprenderá:
- Entender a arquitetura central do Apache Spark, DataFrames e componentes do ecossistema.
- Extrair dados de diversas fontes, incluindo bancos de dados relacionais como MySQL e arquivos planos.
- Transformar conjuntos de dados usando funções PySpark para filtragem, junção e agregação.
- Carregar dados processados de forma eficiente em bancos de dados de destino e formatos de armazenamento modernos como Parquet.
- Aplicar técnicas de otimização para melhorar o desempenho do pipeline e a utilização de recursos.
- Configurar e estruturar um ambiente de projeto de engenharia de dados limpo e de fácil manutenção.
A jornada começa com definições essenciais e configuração do ambiente, garantindo uma base conceitual sólida. Em seguida, você progredirá através de explicações escritas passo a passo e análise de código para construir e executar um pipeline ETL funcional e de ponta a ponta.
Este curso é projetado para iniciantes que desejam entrar no campo da engenharia de dados; nenhuma experiência prévia com Apache Spark é necessária, embora um entendimento básico de Python seja útil.
Comece a ler hoje para construir seu primeiro pipeline de dados escalável.
O que você vai receber
-
📜
Certificado de conclusão
Adicione ao seu perfil do LinkedIn -
🎧
Versão em áudio incluída
Estude em qualquer lugar, sem tela -
♾️
Acesso vitalício
Volte quando quiser, sem expirar -
📱
Celular ou computador
Funciona em qualquer dispositivo -
💸
Reembolso em 30 dias
Sem perguntas -
⚡
Curto e focado
1 h 54 min de conteúdo prático
Avaliações
Ainda não há avaliações — seja o primeiro a compartilhar sua experiência.
Outros também fizeram
Aprenda a indexar, consultar e otimizar dados com eficiência no Elasticsearch, permitindo que você crie soluções poderosas de pesquisa e análise.
$4.99$9.99
Aprenda a projetar, construir e gerenciar pipelines e esquemas de dados escaláveis na nuvem usando Snowflake SQL e princípios modernos de data warehousing.
$4.99$9.99
Saiba como os dados fluem através das organizações modernas, explorando arquiteturas de pipeline, soluções de armazenamento e processos de limpeza de dados projetados para aspirantes a profissionais.
$4.99$9.99
Aprenda os princípios básicos de armazenamento de dados, modelagem dimensional e arquiteturas modernas de nuvem para projetar bancos de dados analíticos eficientes.
$4.99$9.99
Perguntas frequentes
O que preciso para fazer este curso? +
Só um celular ou computador com internet. Sem instalações nem hardware especial.
Como faço para pagar? +
Cartão via Stripe ou criptomoeda. Não guardamos dados do cartão — o Stripe processa com segurança.
Posso pedir reembolso? +
Sim — reembolso integral em 30 dias, sem perguntas.
Por quanto tempo terei acesso? +
Para sempre. Uma vez comprado, o curso é seu para revisar quando quiser.
Vou receber um certificado? +
Sim. Ao concluir, você recebe um certificado que pode adicionar ao seu perfil do LinkedIn.
Feito para profissionais em
Tecnologia
Design
Finanças
Marketing
Saúde
Educação
Hotelaria
Indústria