이 과정 소개
현대 조직은 방대한 양의 데이터를 생성하므로 효율적인 데이터 통합 및 변환은 모든 데이터 전문가에게 중요한 기술입니다. Apache Spark는 대규모 데이터셋을 빠르고 안정적으로 처리하는 업계 표준입니다.
이 서면 과정은 강력한 추출, 변환, 로드(ETL) 파이프라인을 설계, 실행 및 모니터링하는 데 필요한 기본 개념과 실질적인 단계를 안내합니다. 기본 데이터 엔지니어링 용어를 이해하는 것부터 데이터를 정리, 집계 및 최신 스토리지 시스템에 로드하는 구조화된 파이프라인을 구축하는 것까지 진행됩니다.
학습 내용:
- 핵심 Apache Spark 아키텍처, DataFrame 및 에코시스템 구성 요소를 이해합니다.
- MySQL과 같은 관계형 데이터베이스 및 플랫 파일을 포함한 다양한 소스에서 데이터를 추출합니다.
- 필터링, 조인 및 집계를 위한 PySpark 함수를 사용하여 데이터셋을 변환합니다.
- 처리된 데이터를 대상 데이터베이스 및 Parquet와 같은 최신 스토리지 형식으로 효율적으로 로드합니다.
- 파이프라인 성능 및 리소스 활용도를 개선하기 위한 최적화 기술을 적용합니다.
- 깨끗하고 유지 관리 가능한 데이터 엔지니어링 프로젝트 환경을 구성하고 구조화합니다.
여정은 필수 정의 및 환경 설정으로 시작하여 견고한 개념적 기반을 보장합니다. 그런 다음 단계별 서면 설명 및 코드 분석을 통해 기능적이고 종단 간 ETL 파이프라인을 구축하고 실행합니다.
이 과정은 데이터 엔지니어링 분야에 진입하고자 하는 초보자를 위해 설계되었습니다. Apache Spark에 대한 사전 경험은 필요하지 않지만 Python에 대한 기본적인 이해는 도움이 됩니다.
확장 가능한 첫 번째 데이터 파이프라인을 구축하기 위해 오늘 바로 읽기 시작하세요.
받게 되는 것
-
📜
수료증
LinkedIn 프로필에 추가 -
🎧
오디오 버전 포함
화면 없이 어디서나 학습 -
♾️
평생 이용
언제든 다시 보세요, 만료 없음 -
📱
휴대폰 또는 컴퓨터
어디서든 모든 기기에서 -
💸
30일 환불
이유 묻지 않음 -
⚡
짧고 핵심적
1시간 54분의 실용 학습
리뷰
아직 리뷰가 없습니다 — 첫 경험을 공유해 보세요.
다른 학습자도 수강
Elasticsearch 내에서 데이터를 효과적으로 인덱싱, 쿼리 및 최적화하는 방법을 배우고 강력한 검색 및 분석 솔루션을 구축하세요.
$4.99$9.99
Snowflake SQL 및 최신 데이터 웨어하우징 원칙을 사용하여 확장 가능한 클라우드 데이터 파이프라인 및 스키마를 설계, 구축 및 관리하는 방법을 배웁니다.
$4.99$9.99
야심찬 전문가를 위해 설계된 파이프라인 아키텍처, 스토리지 솔루션, 데이터 정리 프로세스를 탐색하여 데이터가 현대 조직을 통해 어떻게 흐르는지 알아보십시오.
$4.99$9.99
데이터 웨어하우징, 차원 모델링, 최신 클라우드 아키텍처의 핵심 원리를 학습하여 효율적인 분석 데이터베이스를 설계합니다.
$4.99$9.99
자주 묻는 질문
이 과정을 듣는 데 무엇이 필요한가요? +
인터넷이 되는 휴대폰이나 컴퓨터만 있으면 됩니다. 설치나 특별한 장비는 필요 없습니다.
결제는 어떻게 하나요? +
Stripe를 통한 카드 또는 암호화폐로. 카드 정보는 저장하지 않으며 Stripe가 안전하게 처리합니다.
환불받을 수 있나요? +
네 — 30일 이내 전액 환불, 이유를 묻지 않습니다.
얼마나 오래 이용할 수 있나요? +
평생. 구매하면 과정은 당신의 것이며 언제든 다시 볼 수 있습니다.
수료증을 받을 수 있나요? +
네. 수료 시 LinkedIn 프로필에 추가할 수 있는 수료증을 받습니다.
이런 분야 학습자에게
테크
디자인
금융
마케팅
의료
교육
호스피탈리티
제조업