IBM無料オンライン教育

Apache Sparkを使用したビッグデータでのスケーラブルな機械学習

説明

このコースでは、Apache Spark を使用してビッグ データ セット上でデータ サイエンスと機械学習 (ML) タスクをスケールするスキルを習得します。 実際の機械学習の作業のほとんどには、XNUMX 台のコンピューターの CPU、メモリ、ストレージの制限を超える非常に大規模なデータ セットが含まれます。

Apache Spark は、クラスター コンピューティングと分散ストレージを活用して、効率的かつコスト効率の高い方法で非常に大規模なデータ セットを処理するオープン ソース フレームワークです。 したがって、Apache Spark の操作に関する応用知識は、機械学習エンジニアにとって大きな資産であり、潜在的な差別化要因となります。

このコースを修了すると、次のことができるようになります。
– Apache Spark を実践的に理解し、小規模データとビッグデータの両方が関係する機械学習の問題を解決するために適用します。
– 数千の CPU で実行できる並列コードがどのように記述されるかを理解します。
– 大規模なコンピューティング クラスターを利用して、Apache SparkML パイプラインを使用してペタバイト規模のデータに機械学習アルゴリズムを適用します。
– データがコンピュータのメインメモリに収まらない場合に従来の機械学習フレームワークによって生成されるメモリ不足エラーを排除します
– 数千の異なる ML モデルを並行してテストして、最もパフォーマンスの高いモデルを見つける – 多くの成功した Kaggler が使用する手法
– (オプション) Apache SparkSQL と Apache Spark DataFrame API を使用して、非常に大規模なデータ セットに対して SQL ステートメントを実行します。

今すぐ登録して、Alibaba、Apple、Amazon、Baidu、eBay、IBM、NASA、Samsung、SAP、TripAdvisor、Yahoo!、Zalando などの企業によって適用され、成功を収めているビッグ データを操作するための機械学習テクニックを学びましょう。

注: コース中は、IBM が無料で提供する Apache Spark クラスター上で機械学習タスクの実行を実践的に練習します。このクラスターは、その後も引き続き使用できます。

受験資格:
– 基本的なPythonプログラミング
– 基本的な機械学習 (オプションの紹介ビデオもこのコースで提供されます)
– オプションのコンテンツのための基本的な SQL スキル

このクラスを受講する前に、次のコースを受講することをお勧めします (すでにスキルを持っている場合を除く)
https://www.coursera.org/learn/python-for-applied-data-science or similar
https://www.coursera.org/learn/machine-learning-with-python or similar
https://www.coursera.org/learn/sql-data-science for optional lectures

価格:無料で登録!

言語: 英語

字幕: 英語

Apache Sparkを使用したビッグデータでのスケーラブルな機械学習 - IBM