การออกแบบและดำเนินการไปป์ไลน์ ETL ด้วย Apache Spark

เรียนรู้วิธีสร้าง ปรับปรุงประสิทธิภาพ และจัดการไปป์ไลน์ข้อมูลที่ปรับขนาดได้โดยใช้ PySpark และ Hadoop เพื่อเริ่มต้นเส้นทางวิศวกรรมข้อมูลของคุณ

4.3 (23) ⏱ 1 ชม. 54 นาที 📚 7 บทเรียน 🎧 เวอร์ชันเสียง

เกี่ยวกับคอร์สนี้

องค์กรสมัยใหม่สร้างข้อมูลปริมาณมหาศาล ทำให้การรวมและแปลงข้อมูลอย่างมีประสิทธิภาพเป็นทักษะที่สำคัญสำหรับมืออาชีพด้านข้อมูลที่ต้องการ Apache Spark เป็นมาตรฐานอุตสาหกรรมสำหรับการประมวลผลชุดข้อมูลขนาดใหญ่ได้อย่างรวดเร็วและเชื่อถือได้ หลักสูตรที่เป็นลายลักษณ์อักษรนี้จะแนะนำคุณตลอดแนวคิดพื้นฐานและขั้นตอนที่จำเป็นในการออกแบบ ดำเนินการ และตรวจสอบไปป์ไลน์ Extract, Transform, Load (ETL) ที่แข็งแกร่ง คุณจะเปลี่ยนจากการทำความเข้าใจคำศัพท์พื้นฐานด้านวิศวกรรมข้อมูลไปสู่การสร้างไปป์ไลน์ที่มีโครงสร้างซึ่งทำความสะอาด รวบรวม และโหลดข้อมูลลงในระบบจัดเก็บข้อมูลสมัยใหม่ สิ่งที่คุณจะได้เรียนรู้: - ทำความเข้าใจสถาปัตยกรรมหลักของ Apache Spark, DataFrames และส่วนประกอบต่างๆ ของระบบนิเวศ - ดึงข้อมูลจากแหล่งข้อมูลที่หลากหลาย รวมถึงฐานข้อมูลเชิงสัมพันธ์ เช่น MySQL และไฟล์แบบธรรมดา - แปลงชุดข้อมูลโดยใช้ฟังก์ชัน PySpark สำหรับการกรอง การรวม และการสรุป - โหลดข้อมูลที่ประมวลผลแล้วอย่างมีประสิทธิภาพไปยังฐานข้อมูลเป้าหมายและรูปแบบการจัดเก็บข้อมูลสมัยใหม่ เช่น Parquet - ใช้เทคนิคการปรับปรุงประสิทธิภาพเพื่อปรับปรุงประสิทธิภาพของไปป์ไลน์และการใช้ทรัพยากร - กำหนดค่าและจัดโครงสร้างสภาพแวดล้อมโครงการวิศวกรรมข้อมูลที่สะอาดและบำรุงรักษาได้ การเดินทางเริ่มต้นด้วยคำจำกัดความที่จำเป็นและการตั้งค่าสภาพแวดล้อม เพื่อให้แน่ใจว่ามีพื้นฐานแนวคิดที่มั่นคง จากนั้นคุณจะดำเนินการผ่านคำอธิบายทีละขั้นตอนและการวิเคราะห์โค้ดเพื่อสร้างและเรียกใช้ไปป์ไลน์ ETL ที่ใช้งานได้จริงและครบวงจร หลักสูตรนี้ออกแบบมาสำหรับผู้เริ่มต้นที่ต้องการเข้าสู่สาขาวิศวกรรมข้อมูล ไม่จำเป็นต้องมีประสบการณ์มาก่อนกับ Apache Spark แม้ว่าความเข้าใจพื้นฐานเกี่ยวกับ Python จะเป็นประโยชน์ก็ตาม เริ่มอ่านวันนี้เพื่อสร้างไปป์ไลน์ข้อมูลที่ปรับขนาดได้แรกของคุณ

สิ่งที่คุณจะได้รับ

  • 📜 ใบประกาศนียบัตร
    เพิ่มในโปรไฟล์ LinkedIn ของคุณ
  • 🎧 รวมเวอร์ชันเสียง
    เรียนได้ทุกที่ ไม่ต้องดูจอ
  • ♾️ เข้าถึงตลอดชีพ
    กลับมาเรียนได้ตลอด ไม่มีหมดอายุ
  • 📱 โทรศัพท์หรือคอมพิวเตอร์
    ใช้งานได้ทุกที่ ทุกอุปกรณ์
  • 💸 คืนเงิน 30 วัน
    ไม่ต้องอธิบาย
  • กระชับและตรงประเด็น
    1 ชม. 54 นาที เนื้อหาเชิงปฏิบัติ

รีวิว

ยังไม่มีรีวิว — เป็นคนแรกที่แชร์ประสบการณ์

เขียนรีวิว

หลังจากส่ง เราจะขอให้คุณเข้าสู่ระบบ — ฉบับร่างของคุณถูกบันทึก

ผู้เรียนคนอื่นเรียน

Elasticsearch: การจัดทำดัชนี, การสืบค้น และการปรับแต่งข้อมูล

เรียนรู้การจัดทำดัชนี, การสืบค้น และการปรับแต่งข้อมูลใน Elasticsearch อย่างมีประสิทธิภาพ ช่วยให้คุณสร้างโซลูชันการค้นหาและการวิเคราะห์ที่ทรงพลังได้
★ 5.0 (17)
$4.99$9.99

Snowflake Data Engineering Foundations

เรียนรู้วิธีออกแบบ สร้าง และจัดการ cloud data pipelines และ schemas ที่ปรับขนาดได้ โดยใช้ Snowflake SQL และหลักการ data warehousing สมัยใหม่
★ 4.9 (16)
$4.99$9.99

พื้นฐานของวิศวกรรมข้อมูล: ระบบท่อ, ระบบจัดเก็บ, และกระบวนการทำงาน

เรียนรู้ว่าข้อมูลไหลผ่านองค์กรสมัยใหม่อย่างไร โดยการสำรวจสถาปัตยกรรมท่อส่ง วิธีการจัดเก็บ และกระบวนการทำความสะอาดข้อมูล
★ 4.9 (1,002)
$4.99$9.99

ฐานข้อมูลการจัดเก็บข้อมูล: การออกแบบการแก้ไขข้อมูลสมัยใหม่

เรียนรู้หลักการพื้นฐานของการจัดเก็บข้อมูล โมเดลมิติ และสถาปัตยกรรมคลาวด์สมัยใหม่ เพื่อออกแบบฐานข้อมูลการวิเคราะห์ที่มีประสิทธิภาพ
★ 4.8 (4,475)
$4.99$9.99

คำถามที่พบบ่อย

ฉันต้องใช้อะไรในการเรียนคอร์สนี้? +

แค่โทรศัพท์หรือคอมพิวเตอร์ที่มีอินเทอร์เน็ต ไม่ต้องติดตั้งหรือใช้อุปกรณ์พิเศษ

ฉันชำระเงินอย่างไร? +

ผ่านบัตรด้วย Stripe หรือคริปโต เราไม่เก็บข้อมูลบัตร — Stripe จัดการอย่างปลอดภัย

ฉันขอคืนเงินได้ไหม? +

ใช่ — คืนเงินเต็มจำนวนใน 30 วัน ไม่ต้องอธิบาย

ฉันมีสิทธิ์เข้าถึงนานเท่าไร? +

ตลอดไป เมื่อซื้อแล้วคอร์สเป็นของคุณ กลับมาเรียนได้ตลอด

ฉันจะได้ใบประกาศนียบัตรไหม? +

ได้ เมื่อเรียนจบจะได้รับใบประกาศนียบัตรที่เพิ่มในโปรไฟล์ LinkedIn ได้

ออกแบบสำหรับผู้เรียนใน
เทคโนโลยี ดีไซน์ การเงิน การตลาด สาธารณสุข การศึกษา ธุรกิจการบริการ อุตสาหกรรม