การออกแบบและดำเนินการไปป์ไลน์ ETL ด้วย Apache Spark
เรียนรู้วิธีสร้าง ปรับปรุงประสิทธิภาพ และจัดการไปป์ไลน์ข้อมูลที่ปรับขนาดได้โดยใช้ PySpark และ Hadoop เพื่อเริ่มต้นเส้นทางวิศวกรรมข้อมูลของคุณ
เกี่ยวกับคอร์สนี้
องค์กรสมัยใหม่สร้างข้อมูลปริมาณมหาศาล ทำให้การรวมและแปลงข้อมูลอย่างมีประสิทธิภาพเป็นทักษะที่สำคัญสำหรับมืออาชีพด้านข้อมูลที่ต้องการ Apache Spark เป็นมาตรฐานอุตสาหกรรมสำหรับการประมวลผลชุดข้อมูลขนาดใหญ่ได้อย่างรวดเร็วและเชื่อถือได้
หลักสูตรที่เป็นลายลักษณ์อักษรนี้จะแนะนำคุณตลอดแนวคิดพื้นฐานและขั้นตอนที่จำเป็นในการออกแบบ ดำเนินการ และตรวจสอบไปป์ไลน์ Extract, Transform, Load (ETL) ที่แข็งแกร่ง คุณจะเปลี่ยนจากการทำความเข้าใจคำศัพท์พื้นฐานด้านวิศวกรรมข้อมูลไปสู่การสร้างไปป์ไลน์ที่มีโครงสร้างซึ่งทำความสะอาด รวบรวม และโหลดข้อมูลลงในระบบจัดเก็บข้อมูลสมัยใหม่
สิ่งที่คุณจะได้เรียนรู้:
- ทำความเข้าใจสถาปัตยกรรมหลักของ Apache Spark, DataFrames และส่วนประกอบต่างๆ ของระบบนิเวศ
- ดึงข้อมูลจากแหล่งข้อมูลที่หลากหลาย รวมถึงฐานข้อมูลเชิงสัมพันธ์ เช่น MySQL และไฟล์แบบธรรมดา
- แปลงชุดข้อมูลโดยใช้ฟังก์ชัน PySpark สำหรับการกรอง การรวม และการสรุป
- โหลดข้อมูลที่ประมวลผลแล้วอย่างมีประสิทธิภาพไปยังฐานข้อมูลเป้าหมายและรูปแบบการจัดเก็บข้อมูลสมัยใหม่ เช่น Parquet
- ใช้เทคนิคการปรับปรุงประสิทธิภาพเพื่อปรับปรุงประสิทธิภาพของไปป์ไลน์และการใช้ทรัพยากร
- กำหนดค่าและจัดโครงสร้างสภาพแวดล้อมโครงการวิศวกรรมข้อมูลที่สะอาดและบำรุงรักษาได้
การเดินทางเริ่มต้นด้วยคำจำกัดความที่จำเป็นและการตั้งค่าสภาพแวดล้อม เพื่อให้แน่ใจว่ามีพื้นฐานแนวคิดที่มั่นคง จากนั้นคุณจะดำเนินการผ่านคำอธิบายทีละขั้นตอนและการวิเคราะห์โค้ดเพื่อสร้างและเรียกใช้ไปป์ไลน์ ETL ที่ใช้งานได้จริงและครบวงจร
หลักสูตรนี้ออกแบบมาสำหรับผู้เริ่มต้นที่ต้องการเข้าสู่สาขาวิศวกรรมข้อมูล ไม่จำเป็นต้องมีประสบการณ์มาก่อนกับ Apache Spark แม้ว่าความเข้าใจพื้นฐานเกี่ยวกับ Python จะเป็นประโยชน์ก็ตาม
เริ่มอ่านวันนี้เพื่อสร้างไปป์ไลน์ข้อมูลที่ปรับขนาดได้แรกของคุณ
สิ่งที่คุณจะได้รับ
-
📜
ใบประกาศนียบัตร
เพิ่มในโปรไฟล์ LinkedIn ของคุณ -
🎧
รวมเวอร์ชันเสียง
เรียนได้ทุกที่ ไม่ต้องดูจอ -
♾️
เข้าถึงตลอดชีพ
กลับมาเรียนได้ตลอด ไม่มีหมดอายุ -
📱
โทรศัพท์หรือคอมพิวเตอร์
ใช้งานได้ทุกที่ ทุกอุปกรณ์ -
💸
คืนเงิน 30 วัน
ไม่ต้องอธิบาย -
⚡
กระชับและตรงประเด็น
1 ชม. 54 นาที เนื้อหาเชิงปฏิบัติ
รีวิว
ยังไม่มีรีวิว — เป็นคนแรกที่แชร์ประสบการณ์
ผู้เรียนคนอื่นเรียน
เรียนรู้การจัดทำดัชนี, การสืบค้น และการปรับแต่งข้อมูลใน Elasticsearch อย่างมีประสิทธิภาพ ช่วยให้คุณสร้างโซลูชันการค้นหาและการวิเคราะห์ที่ทรงพลังได้
$4.99$9.99
เรียนรู้วิธีออกแบบ สร้าง และจัดการ cloud data pipelines และ schemas ที่ปรับขนาดได้ โดยใช้ Snowflake SQL และหลักการ data warehousing สมัยใหม่
$4.99$9.99
เรียนรู้ว่าข้อมูลไหลผ่านองค์กรสมัยใหม่อย่างไร โดยการสำรวจสถาปัตยกรรมท่อส่ง วิธีการจัดเก็บ และกระบวนการทำความสะอาดข้อมูล
$4.99$9.99
เรียนรู้หลักการพื้นฐานของการจัดเก็บข้อมูล โมเดลมิติ และสถาปัตยกรรมคลาวด์สมัยใหม่ เพื่อออกแบบฐานข้อมูลการวิเคราะห์ที่มีประสิทธิภาพ
$4.99$9.99
คำถามที่พบบ่อย
ฉันต้องใช้อะไรในการเรียนคอร์สนี้? +
แค่โทรศัพท์หรือคอมพิวเตอร์ที่มีอินเทอร์เน็ต ไม่ต้องติดตั้งหรือใช้อุปกรณ์พิเศษ
ฉันชำระเงินอย่างไร? +
ผ่านบัตรด้วย Stripe หรือคริปโต เราไม่เก็บข้อมูลบัตร — Stripe จัดการอย่างปลอดภัย
ฉันขอคืนเงินได้ไหม? +
ใช่ — คืนเงินเต็มจำนวนใน 30 วัน ไม่ต้องอธิบาย
ฉันมีสิทธิ์เข้าถึงนานเท่าไร? +
ตลอดไป เมื่อซื้อแล้วคอร์สเป็นของคุณ กลับมาเรียนได้ตลอด
ฉันจะได้ใบประกาศนียบัตรไหม? +
ได้ เมื่อเรียนจบจะได้รับใบประกาศนียบัตรที่เพิ่มในโปรไฟล์ LinkedIn ได้
ออกแบบสำหรับผู้เรียนใน
เทคโนโลยี
ดีไซน์
การเงิน
การตลาด
สาธารณสุข
การศึกษา
ธุรกิจการบริการ
อุตสาหกรรม