スケーラブルデータサイエンスの基礎| 大学ネットワーク

説明

Apache Sparkは、大規模なデータ処理の事実上の標準です。これは、IBM Advanced Data Science Specialization向けの一連のコースの最初のコースです。高度な機械学習モデルを構築する場合、メモリとCPUの制約が最も制限要因となるため、スケーラブルなデータサイエンスプラットフォームの学習を開始するには成功が不可欠であると強く考えています。

このコースでは、Pythonとpysparkを使用してApacheSparkの基礎を学びます。最初のXNUMX週間でApacheSparkを紹介し、それを適用して、過去XNUMX週間の基本的な探索的およびデータ前処理タスクを計算する方法を学習します。この演習を通じて、最も基本的な統計測定とデータ視覚化テクノロジーについても紹介します。

これにより、最新の環境でデータエンジニアの役割を引き継ぐのに十分な知識が得られます。ただし、データサイエンスに向けてキャリアを前進させるための基盤も提供します。

完全な専門カリキュラムをご覧ください。
https://www.coursera.org/specializations/advanced-data-science-ibm

このコースを受講してCourseraコース証明書を取得すると、IBMデジタルバッジも取得できます。 IBMデジタルバッジの詳細については、ibm.biz / badgingリンクを参照してください。

このコースを修了すると、次のことができるようになります。
•データ内のパターンを明らかにするために、基本的な統計的尺度がどのように使用されるかを説明する
•データの特性、パターン、傾向、偏差または不整合、および潜在的な外れ値を認識します。
•ディメンション削減や特徴選択方法など、ビッグデータを操作するための便利なテクニックを特定する
•高度なツールとチャートライブラリを使用して、次のことを行います。
oパーティション分割と並列分析により、ビッグデータの分析効率を改善
o多数の2Dおよび3D形式（ボックスプロット、ランチャート、散布図、パレートチャート、および多次元スケーリング）でデータを視覚化する

コースを正常に完了するには、次の前提条件が推奨されます。
•Pythonの基本的なプログラミングスキル
•基本的な数学
•基本SQL（必要に応じてhttps://www.coursera.org/learn/sql-data-scienceから簡単に取得できます）

このコースを完了するには、次の技術が使用されます。
（これらの技術は必要に応じてコースで導入されるため、事前の知識は必要ありません。）
Jupyterノートブック（IBM Watson Studioから無料で提供されます）
•ApacheSpark（IBM Watson Studioから無料で提供されます）
•Python

このコースには4週間、週6〜XNUMX時間かかります