Thiết kế và Thực thi Đường ống ETL Apache Spark

Học cách xây dựng, tối ưu hóa và quản lý các đường ống dữ liệu có thể mở rộng bằng PySpark và Hadoop để bắt đầu hành trình kỹ thuật dữ liệu của bạn.

4.3 (23) ⏱ 1 giờ 54 phút 📚 7 bài 🎧 Phiên bản âm thanh

Về khóa học này

Các tổ chức hiện đại tạo ra khối lượng dữ liệu khổng lồ, làm cho việc tích hợp và chuyển đổi dữ liệu hiệu quả trở thành một kỹ năng quan trọng đối với bất kỳ chuyên gia dữ liệu đầy tham vọng nào. Apache Spark là tiêu chuẩn công nghiệp để xử lý các tập dữ liệu quy mô lớn một cách nhanh chóng và đáng tin cậy. Khóa học bằng văn bản này hướng dẫn bạn qua các khái niệm nền tảng và các bước thực tế cần thiết để thiết kế, thực thi và giám sát các đường ống Extract, Transform, Load (ETL) mạnh mẽ. Bạn sẽ chuyển từ việc hiểu các thuật ngữ kỹ thuật dữ liệu cơ bản đến việc xây dựng các đường ống có cấu trúc để làm sạch, tổng hợp và tải dữ liệu vào các hệ thống lưu trữ hiện đại. Bạn sẽ học được gì: - Hiểu kiến trúc Apache Spark cốt lõi, DataFrames và các thành phần hệ sinh thái. - Trích xuất dữ liệu từ các nguồn đa dạng bao gồm cơ sở dữ liệu quan hệ như MySQL và các tệp phẳng. - Chuyển đổi tập dữ liệu bằng các hàm PySpark để lọc, kết hợp và tổng hợp. - Tải dữ liệu đã xử lý một cách hiệu quả vào cơ sở dữ liệu đích và các định dạng lưu trữ hiện đại như Parquet. - Áp dụng các kỹ thuật tối ưu hóa để cải thiện hiệu suất đường ống và việc sử dụng tài nguyên. - Cấu hình và cấu trúc một môi trường dự án kỹ thuật dữ liệu sạch sẽ, dễ bảo trì. Hành trình bắt đầu với các định nghĩa thiết yếu và thiết lập môi trường, đảm bảo một nền tảng khái niệm vững chắc. Sau đó, bạn sẽ tiến hành qua các giải thích từng bước bằng văn bản và phân tích mã để xây dựng và chạy một đường ống ETL chức năng, đầu cuối. Khóa học này được thiết kế cho người mới bắt đầu muốn tham gia vào lĩnh vực kỹ thuật dữ liệu; không yêu cầu kinh nghiệm trước đó với Apache Spark, mặc dù hiểu biết cơ bản về Python là hữu ích. Bắt đầu đọc ngay hôm nay để xây dựng đường ống dữ liệu có thể mở rộng đầu tiên của bạn.

Bạn sẽ nhận được

  • 📜 Chứng chỉ hoàn thành
    Thêm vào hồ sơ LinkedIn
  • 🎧 Bao gồm phiên bản âm thanh
    Học mọi lúc mọi nơi — không cần màn hình
  • ♾️ Truy cập trọn đời
    Quay lại bất cứ lúc nào, không hết hạn
  • 📱 Điện thoại hoặc máy tính
    Hoạt động mọi nơi, mọi thiết bị
  • 💸 Hoàn tiền 30 ngày
    Không cần lý do
  • Ngắn gọn, đi vào trọng tâm
    1 giờ 54 phút nội dung thực hành

Đánh giá

Chưa có đánh giá — hãy là người đầu tiên chia sẻ.

Viết đánh giá

Sau khi gửi, chúng tôi sẽ yêu cầu đăng nhập — bản nháp được lưu.

Học viên cũng học

Câu hỏi thường gặp

Tôi cần gì để học khóa này? +

Chỉ cần điện thoại hoặc máy tính có kết nối internet. Không cần cài đặt hay thiết bị đặc biệt.

Tôi thanh toán bằng cách nào? +

Bằng thẻ qua Stripe, hoặc tiền điện tử. Chúng tôi không lưu thông tin thẻ — Stripe xử lý an toàn.

Tôi có thể được hoàn tiền không? +

Có — hoàn tiền đầy đủ trong 30 ngày, không cần lý do.

Tôi sẽ có quyền truy cập trong bao lâu? +

Mãi mãi. Sau khi mua, khóa học là của bạn để xem lại bất cứ lúc nào.

Tôi có nhận được chứng chỉ không? +

Có. Sau khi hoàn thành, bạn sẽ nhận được chứng chỉ và có thể thêm vào hồ sơ LinkedIn.

Dành cho người học trong
Công nghệ Thiết kế Tài chính Marketing Y tế Giáo dục Khách sạn-Dịch vụ Sản xuất