ワシントン大学無料オンライン教育

大規模なデータ操作:システムとアルゴリズム

説明

データ分析は、証拠に基づく意思決定のボトルネックとしてデータ収集に取って代わりました—私たちはそれに溺れています。 大規模で異種のノイズの多いデータセットから知識を抽出するには、強力なコンピューティングリソースだけでなく、それらを効果的に使用するためのプログラミングの抽象化も必要です。 過去XNUMX年間に出現した抽象化は、並列データベース、分散システム、プログラミング言語からのアイデアをブレンドして、現実的な規模のデータサイエンスの基盤を形成する新しいクラスのスケーラブルなデータ分析プラットフォームを作成します。

このコースでは、関連するシステムの概要、システムが依存する原則、トレードオフ、および要件に対するユーティリティの評価方法を学習します。 コンピュータサイエンスの研究のフロンティアから実用的なシステムがどのようにして派生したのか、どのようなシステムが登場するのかを学びます。 クラウドコンピューティング、SQLおよびNoSQLデータベース、MapReduceとそれが生み出したエコシステム、Sparkとその同世代、およびグラフと配列用の特殊なシステムについて説明します。

また、データサイエンスの歴史とコンテキスト、その用語が意味するスキル、課題、方法論、およびデータサイエンスプロジェクトを構築する方法についても学びます。 このコースを修了すると、次のことができるようになります。

学習目標:
1.データサイエンスプロジェクトに関連する一般的なパターン、課題、アプローチ、およびそれらと関連分野のプロジェクトとの違いを説明します。
2.リレーショナル代数、mapreduce、およびその他のデータフローモデルを含む、スケーラブルなデータ操作に関連するプログラミングモデルを特定して使用します。
3.並列データベース、並列クエリ処理、データベース内分析を推進する概念を含む、大規模分析に適合したデータベーステクノロジーを使用する
4. Key-ValueストアとNoSQLシステムを評価し、同等のシステムとのトレードオフ、スペース内の重要な例の詳細、および将来の傾向について説明します。
5. MapReduceで「考えて」、HadoopやSparkを含むシステムのアルゴリズムを効果的に記述します。 それらの制限、設計の詳細、データベースとの関係、およびアルゴリズム、拡張機能、言語の関連エコシステムを理解します。
Sparkでプログラムを書く
6.グラフ、配列、およびストリーム用の特化したビッグデータシステムの状況を説明する

価格:無料で登録!

言語: 英語

字幕: 英語

大規模なデータ操作:システムとアルゴリズム –ワシントン大学