エコール・ポリテクニック連邦ローザンヌ校の無料オンライン教育

Scala と Spark を使用したビッグデータ分析

説明

関数概念を使用してクラスター上に分散されたビッグ データを操作することは産業界で蔓延しており、これはおそらく関数概念の最初の広範な産業用途の XNUMX つです。 これは、MapReduce と Hadoop、そして最近では Scala で書かれた高速なインメモリ分散コレクション フレームワークである Apache Spark の人気によって証明されています。 このコースでは、Spark を全体的に使用して、データ並列パラダイムを分散ケースにどのように拡張できるかを見ていきます。 Spark のプログラミング モデルについて詳しく説明し、共有メモリの並列コレクションや順次 Scala コレクションなどのよく知られたプログラミング モデルとどのように異なるのか、またどのような場合に異なるのかを注意深く理解します。 Spark と Scala の実践的な例を通じて、レイテンシやネットワーク通信などの配布に関連する重要な問題をいつ考慮する必要があるか、またパフォーマンスを向上させるためにそれらに効果的に対処する方法を学びます。

学習成果。 このコースを修了すると、次のことができるようになります。

– 永続ストレージからデータを読み取り、Apache Spark にロードします。
– Spark と Scala を使用してデータを操作する
– データ分析のアルゴリズムを関数形式で表現します。
– Spark でのシャッフルと再計算を回避する方法を認識します。

推奨される背景: 少なくとも 1 年のプログラミング経験が必要です。 Java または C# に習熟していることが理想的ですが、C/C++、Python、JavaScript、Ruby などの他の言語の経験もあれば十分です。 コマンド ラインの使用にある程度慣れている必要があります。 このコースは、並列プログラミングの後に受講することを目的としています: https://www.coursera.org/learn/parprogXNUMX。

価格:無料で登録!

言語: 英語

字幕: 英語

Scala と Spark を使用したビッグデータ分析 –ÉcolePolytechniqueFédéraledeLausanne