Apache Spark ETL 파이프라인 설계 및 실행

PySpark 및 Hadoop을 사용하여 확장 가능한 데이터 파이프라인을 구축, 최적화 및 관리하는 방법을 배우고 데이터 엔지니어링 여정을 시작하세요.

4.3 (23) ⏱ 1시간 54분 📚 7개 레슨 🎧 오디오 버전

이 과정 소개

현대 조직은 방대한 양의 데이터를 생성하므로 효율적인 데이터 통합 및 변환은 모든 데이터 전문가에게 중요한 기술입니다. Apache Spark는 대규모 데이터셋을 빠르고 안정적으로 처리하는 업계 표준입니다. 이 서면 과정은 강력한 추출, 변환, 로드(ETL) 파이프라인을 설계, 실행 및 모니터링하는 데 필요한 기본 개념과 실질적인 단계를 안내합니다. 기본 데이터 엔지니어링 용어를 이해하는 것부터 데이터를 정리, 집계 및 최신 스토리지 시스템에 로드하는 구조화된 파이프라인을 구축하는 것까지 진행됩니다. 학습 내용: - 핵심 Apache Spark 아키텍처, DataFrame 및 에코시스템 구성 요소를 이해합니다. - MySQL과 같은 관계형 데이터베이스 및 플랫 파일을 포함한 다양한 소스에서 데이터를 추출합니다. - 필터링, 조인 및 집계를 위한 PySpark 함수를 사용하여 데이터셋을 변환합니다. - 처리된 데이터를 대상 데이터베이스 및 Parquet와 같은 최신 스토리지 형식으로 효율적으로 로드합니다. - 파이프라인 성능 및 리소스 활용도를 개선하기 위한 최적화 기술을 적용합니다. - 깨끗하고 유지 관리 가능한 데이터 엔지니어링 프로젝트 환경을 구성하고 구조화합니다. 여정은 필수 정의 및 환경 설정으로 시작하여 견고한 개념적 기반을 보장합니다. 그런 다음 단계별 서면 설명 및 코드 분석을 통해 기능적이고 종단 간 ETL 파이프라인을 구축하고 실행합니다. 이 과정은 데이터 엔지니어링 분야에 진입하고자 하는 초보자를 위해 설계되었습니다. Apache Spark에 대한 사전 경험은 필요하지 않지만 Python에 대한 기본적인 이해는 도움이 됩니다. 확장 가능한 첫 번째 데이터 파이프라인을 구축하기 위해 오늘 바로 읽기 시작하세요.

받게 되는 것

  • 📜 수료증
    LinkedIn 프로필에 추가
  • 🎧 오디오 버전 포함
    화면 없이 어디서나 학습
  • ♾️ 평생 이용
    언제든 다시 보세요, 만료 없음
  • 📱 휴대폰 또는 컴퓨터
    어디서든 모든 기기에서
  • 💸 30일 환불
    이유 묻지 않음
  • 짧고 핵심적
    1시간 54분의 실용 학습

리뷰

아직 리뷰가 없습니다 — 첫 경험을 공유해 보세요.

리뷰 쓰기

보낸 뒤 로그인을 안내합니다 — 임시저장됩니다.

다른 학습자도 수강

자주 묻는 질문

이 과정을 듣는 데 무엇이 필요한가요? +

인터넷이 되는 휴대폰이나 컴퓨터만 있으면 됩니다. 설치나 특별한 장비는 필요 없습니다.

결제는 어떻게 하나요? +

Stripe를 통한 카드 또는 암호화폐로. 카드 정보는 저장하지 않으며 Stripe가 안전하게 처리합니다.

환불받을 수 있나요? +

네 — 30일 이내 전액 환불, 이유를 묻지 않습니다.

얼마나 오래 이용할 수 있나요? +

평생. 구매하면 과정은 당신의 것이며 언제든 다시 볼 수 있습니다.

수료증을 받을 수 있나요? +

네. 수료 시 LinkedIn 프로필에 추가할 수 있는 수료증을 받습니다.

이런 분야 학습자에게
테크 디자인 금융 마케팅 의료 교육 호스피탈리티 제조업