Thiết kế và Thực thi Đường ống ETL Apache Spark
Học cách xây dựng, tối ưu hóa và quản lý các đường ống dữ liệu có thể mở rộng bằng PySpark và Hadoop để bắt đầu hành trình kỹ thuật dữ liệu của bạn.
Về khóa học này
Các tổ chức hiện đại tạo ra khối lượng dữ liệu khổng lồ, làm cho việc tích hợp và chuyển đổi dữ liệu hiệu quả trở thành một kỹ năng quan trọng đối với bất kỳ chuyên gia dữ liệu đầy tham vọng nào. Apache Spark là tiêu chuẩn công nghiệp để xử lý các tập dữ liệu quy mô lớn một cách nhanh chóng và đáng tin cậy.
Khóa học bằng văn bản này hướng dẫn bạn qua các khái niệm nền tảng và các bước thực tế cần thiết để thiết kế, thực thi và giám sát các đường ống Extract, Transform, Load (ETL) mạnh mẽ. Bạn sẽ chuyển từ việc hiểu các thuật ngữ kỹ thuật dữ liệu cơ bản đến việc xây dựng các đường ống có cấu trúc để làm sạch, tổng hợp và tải dữ liệu vào các hệ thống lưu trữ hiện đại.
Bạn sẽ học được gì:
- Hiểu kiến trúc Apache Spark cốt lõi, DataFrames và các thành phần hệ sinh thái.
- Trích xuất dữ liệu từ các nguồn đa dạng bao gồm cơ sở dữ liệu quan hệ như MySQL và các tệp phẳng.
- Chuyển đổi tập dữ liệu bằng các hàm PySpark để lọc, kết hợp và tổng hợp.
- Tải dữ liệu đã xử lý một cách hiệu quả vào cơ sở dữ liệu đích và các định dạng lưu trữ hiện đại như Parquet.
- Áp dụng các kỹ thuật tối ưu hóa để cải thiện hiệu suất đường ống và việc sử dụng tài nguyên.
- Cấu hình và cấu trúc một môi trường dự án kỹ thuật dữ liệu sạch sẽ, dễ bảo trì.
Hành trình bắt đầu với các định nghĩa thiết yếu và thiết lập môi trường, đảm bảo một nền tảng khái niệm vững chắc. Sau đó, bạn sẽ tiến hành qua các giải thích từng bước bằng văn bản và phân tích mã để xây dựng và chạy một đường ống ETL chức năng, đầu cuối.
Khóa học này được thiết kế cho người mới bắt đầu muốn tham gia vào lĩnh vực kỹ thuật dữ liệu; không yêu cầu kinh nghiệm trước đó với Apache Spark, mặc dù hiểu biết cơ bản về Python là hữu ích.
Bắt đầu đọc ngay hôm nay để xây dựng đường ống dữ liệu có thể mở rộng đầu tiên của bạn.
Bạn sẽ nhận được
-
📜
Chứng chỉ hoàn thành
Thêm vào hồ sơ LinkedIn -
🎧
Bao gồm phiên bản âm thanh
Học mọi lúc mọi nơi — không cần màn hình -
♾️
Truy cập trọn đời
Quay lại bất cứ lúc nào, không hết hạn -
📱
Điện thoại hoặc máy tính
Hoạt động mọi nơi, mọi thiết bị -
💸
Hoàn tiền 30 ngày
Không cần lý do -
⚡
Ngắn gọn, đi vào trọng tâm
1 giờ 54 phút nội dung thực hành
Đánh giá
Chưa có đánh giá — hãy là người đầu tiên chia sẻ.
Học viên cũng học
Học cách lập chỉ mục, truy vấn và tối ưu hóa dữ liệu một cách hiệu quả trong Elasticsearch, giúp bạn xây dựng các giải pháp tìm kiếm và phân tích mạnh mẽ.
$4.99$9.99
Học cách thiết kế, xây dựng và quản lý các pipeline dữ liệu đám mây và lược đồ có thể mở rộng bằng Snowflake SQL và các nguyên tắc kho dữ liệu hiện đại.
$4.99$9.99
Tìm hiểu cách dữ liệu lưu chuyển trong các tổ chức hiện đại bằng cách khám phá các kiến trúc đường ống, giải pháp lưu trữ và quy trình làm sạch dữ liệu được thiết kế cho các chuyên gia tương lai.
$4.99$9.99
Tìm hiểu các nguyên tắc cốt lõi của kho dữ liệu, mô hình hóa chiều và kiến trúc đám mây hiện đại để thiết kế các cơ sở dữ liệu phân tích hiệu quả.
$4.99$9.99
Câu hỏi thường gặp
Tôi cần gì để học khóa này? +
Chỉ cần điện thoại hoặc máy tính có kết nối internet. Không cần cài đặt hay thiết bị đặc biệt.
Tôi thanh toán bằng cách nào? +
Bằng thẻ qua Stripe, hoặc tiền điện tử. Chúng tôi không lưu thông tin thẻ — Stripe xử lý an toàn.
Tôi có thể được hoàn tiền không? +
Có — hoàn tiền đầy đủ trong 30 ngày, không cần lý do.
Tôi sẽ có quyền truy cập trong bao lâu? +
Mãi mãi. Sau khi mua, khóa học là của bạn để xem lại bất cứ lúc nào.
Tôi có nhận được chứng chỉ không? +
Có. Sau khi hoàn thành, bạn sẽ nhận được chứng chỉ và có thể thêm vào hồ sơ LinkedIn.
Dành cho người học trong
Công nghệ
Thiết kế
Tài chính
Marketing
Y tế
Giáo dục
Khách sạn-Dịch vụ
Sản xuất