Apache Spark ETL パイプラインの設計と実行
PySpark と Hadoop を使用してスケーラブルなデータ パイプラインを構築、最適化、管理する方法を学び、データ エンジニアリングの旅を始めましょう。
このコースについて
現代の組織は膨大な量のデータを生成しており、効率的なデータ統合と変換は、意欲的なデータ プロフェッショナルにとって不可欠なスキルとなっています。Apache Spark は、大規模なデータセットを迅速かつ確実に処理するための業界標準です。
この実践的なコースでは、堅牢な抽出、変換、ロード (ETL) パイプラインを設計、実行、監視するために必要な基本的な概念と実践的な手順を説明します。基本的なデータ エンジニアリングの用語を理解することから、データをクリーニング、集計し、最新のストレージ システムにロードする構造化されたパイプラインを構築することまでを移行します。
学習内容:
- Apache Spark のコア アーキテクチャ、DataFrames、およびエコシステム コンポーネントを理解する。
- MySQL のようなリレーショナル データベースやフラット ファイルを含む、さまざまなソースからデータを抽出する。
- フィルタリング、結合、集計のための PySpark 関数を使用してデータセットを変換する。
- 処理されたデータをターゲット データベースや Parquet のような最新のストレージ形式に効率的にロードする。
- パイプラインのパフォーマンスとリソース利用率を向上させるための最適化手法を適用する。
- クリーンで保守可能なデータ エンジニアリング プロジェクト環境を構成および構造化する。
旅は、基本的な定義と環境設定から始まり、確固たる概念的基盤を確保します。その後、段階的な説明とコード分析を通じて、機能的なエンドツーエンドの ETL パイプラインを構築および実行します。
このコースは、データ エンジニアリング分野への参入を希望する初心者向けに設計されています。Apache Spark の事前経験は不要ですが、Python の基本的な理解があると役立ちます。
今日から読み始めて、最初のスケーラブルなデータ パイプラインを構築しましょう。
得られるもの
-
📜
修了証
LinkedInプロフィールに追加 -
🎧
音声版付き
画面なしでもどこでも学べる -
♾️
無期限アクセス
いつでも再開可能、有効期限なし -
📱
スマホでもPCでも
どこでもどんな端末でも -
💸
30日返金保証
理由を聞きません -
⚡
短く要点だけ
1時間54分の実践的な内容
レビュー
まだレビューはありません — 最初の体験を共有しましょう。
他の受講者はこれも
Elasticsearch内でデータを効果的にインデックス作成、クエリ、最適化する方法を学び、強力な検索および分析ソリューションを構築できるようになります。
$4.99$9.99
Learn to design, build, and manage scalable cloud data pipelines and schemas using Snowflake SQL and modern data warehousing principles.
$4.99$9.99
プロフェッショナル向けに設計されたパイプラインアーキテクチャ、ストレージソリューション、データクリーニングプロセスを調べることにより、現代の組織におけるデータの流れを学ぶ。
$4.99$9.99
効率的な分析データベースを設計するためのデータウェアハウジング、次元モデリング、および最新のクラウドアーキテクチャの基本原理を学ぶ。
$4.99$9.99
よくある質問
このコースを受けるには何が必要ですか? +
インターネットに接続したスマホかパソコンだけ。インストールも特別な機材も不要です。
支払い方法は? +
Stripe経由のカード、または暗号通貨。カード情報は当社では保存せず、Stripeが安全に取り扱います。
返金できますか? +
はい — 30日以内なら理由を問わず全額返金。
いつまでアクセスできますか? +
ずっと。購入後はあなたのもの。いつでも見返せます。
修了証はもらえますか? +
はい。修了するとLinkedInプロフィールに追加できる修了証を受け取れます。
こんな分野の方に
テック
デザイン
金融
マーケティング
医療
教育
ホスピタリティ
製造業