大学ネットワーク

Microsoft Rを使用したビッグデータの分析

説明

オープンソースのプログラミング言語Rは、データ処理と統計分析で長い間(特に学界で)人気がありました。 Rの強みの中には、簡潔なプログラミング言語であり、あらゆる種類の分析を実行するためのサードパーティライブラリの広範なリポジトリがあることです。 これらの3つの機能を組み合わせることで、データサイエンティストは、生データから要約、グラフ、さらには本格的なレポートに非常に迅速に移行できます。 ただし、Rの欠点のXNUMXつは、データ全体のコピーをdata.frameオブジェクトとしてロードする必要があるため、およびデータの処理にさらにコピーを作成する必要があるため(場合によっては)、従来は大量のメモリを使用することです。コピーオンモディファイと呼ばれます)。 これが、Rが学界に比べて産業界に受け入れられた理由のXNUMXつです。 Microsoft R Server(MRS)の主要コンポーネントはRevoScaleRパッケージです。これは、大規模なデータセットを一度にメモリにロードすることなく処理するための一連の機能を提供するRライブラリです。 RevoScaleRは、分散統計および機械学習アルゴリズムの豊富なセットを提供し、時間の経過とともに追加されます。 最後に、RevoScaleRは、ラップトップで開発したコードを取得して、最小限の労力でSQL ServerやSpark(インフラストラクチャが内部で大きく異なる)などのリモートサーバーにデプロイできるメカニズムも提供します。 このコースでは、MRSを使用して大規模なデータセットで分析を実行する方法を示し、SparkクラスターまたはSQLServerデータベースにデプロイする方法の例をいくつか示します。 完了すると、ビッグデータの問題にRを使用する方法がわかります。 RevoScaleRはRパッケージであるため、コース参加者はRに精通していることを前提としています。Rデータ構造(ベクトル、行列、リスト、データフレーム、環境)をしっかりと理解している必要があります。 dplyrなどのサードパーティパッケージに精通していることも役立ちます。edXは、確認済み証明書を取得したいが料金を支払うことができない学習者に経済的支援を提供します。 経済的支援を申請するには、コースに登録し、このリンクをたどって支援の申請を完了してください。

価格:$ 99 –監査は無料です!

ハーバード大学とMITが設立した教育用プラットフォームであるedXを使用して、Microsoft Rでビッグデータを分析します。

Microsoft Rを使用したビッグデータの分析 - マイクロソフト