機械学習: クラスタリングと検索

説明

ケーススタディ: 類似したドキュメントの検索

読者は特定のニュース記事に興味を持っており、あなたは同様の記事を見つけて推奨したいと考えています。類似性についての正しい概念は何ですか? さらに、他にも何百万ものドキュメントがある場合はどうなるでしょうか? 新しいドキュメントを取得するたびに、他のすべてのドキュメントを検索する必要がありますか? 類似した文書をグループ化するにはどうすればよいでしょうか? ドキュメントで取り上げられている新しいトピックをどのように見つけますか?

この XNUMX 番目のケーススタディでは、類似したドキュメントを検索し、類似性に基づいた検索アルゴリズムを調べます。このコースでは、クラスタリングや潜在ディリクレ割り当て (LDA) などの混合メンバーシップモデルなど、コーパス内の文書を記述するための構造化表現についても検討します。期待値最大化 (EM) を実装してドキュメントクラスタリングを学習し、MapReduce を使用してメソッドをスケールする方法を確認します。

学習成果: このコースを終了するまでに、次のことができるようになります。
-k 最近傍法を使用して文書検索システムを作成します。
- テキストデータのさまざまな類似性メトリクスを特定します。
- KD ツリーを使用して、k 最近傍検索の計算を削減します。
- 局所性を考慮したハッシュを使用して近傍を生成します。
-教師あり学習タスクと教師なし学習タスクを比較対照します。
-K 平均法を使用してトピックごとにドキュメントをクラスター化します。
-MapReduce を使用して K-means を並列化する方法を説明します。
-混合モデルを使用した確率的クラスタリング手法を検討します。
- 期待値最大化 (EM) を使用してガウスモデルの混合を適合します。
-潜在ディリクレ割り当て (LDA) を使用して混合メンバーシップモデリングを実行します。
- Gibbs サンプラーの手順と、その出力を使用して推論を行う方法について説明します。
- 非凸最適化目標の初期化手法を比較対照します。
-これらのテクニックを Python で実装します。