無料のオンライン教育

Sparkを使用したビッグデータ分析

説明

データサイエンスでは、データが単一の標準的なラップトップまたはワークステーションのメモリに収まらない場合、データは「ビッグ」と呼ばれます。 大きなデータセットの分析には、数十、数百、または数千台のコンピューターのクラスターを使用する必要があります。 このようなクラスターを効果的に使用するには、Hadoop分散ファイルシステム(HDFS)などの分散ファイルシステムと、Hadoop、MapReduce、Sparkなどの対応する計算モデルを使用する必要があります。 このコースでは、Data Science MicroMastersプログラムの一部として、大規模な並列計算のボトルネックと、sparkを使用してこれらのボトルネックを最小限に抑える方法を学習します。 機械学習ライブラリ(MLlib)を使用して、大規模なデータセットに対して教師なし機械学習を実行する方法を学習します。 このコースでは、このMicroMastersプログラムの他のコースと同様に、Jupyterノートブック環境内でPySparkを実際に使用する経験を積むことができます。

価格: 監査は無料です!

ハーバード大学とMITが設立した教育用プラットフォームであるedXを介してSparkを使用したビッグデータ分析。

Sparkを使用したビッグデータ分析