関数近似による予測と制御

説明

このコースでは、大規模で高次元の潜在的に無限の状態空間の問題を解決する方法を学びます。価値関数の推定を教師あり学習問題 (関数近似) としてキャストできることがわかります。これにより、報酬を最大化するために一般化と識別のバランスを慎重にとったエージェントを構築できます。この旅は、モンテカルロや TD などのポリシー評価または予測手法を関数近似設定にどのように拡張できるかを調査することから始めます。 RL の特徴構築テクニックと、ニューラルネットワークとバックプロップによる表現学習について学びます。このコースは、ポリシー勾配手法を深く掘り下げて終了します。価値関数を学習せずにポリシーを直接学習する方法。このコースでは、XNUMX つの連続状態制御タスクを解決し、連続アクション環境におけるポリシー勾配手法の利点を調査します。

前提条件: このコースはコース 1 と 2 の基礎に基づいて構築されており、学習者はこのコースを開始する前にこれらを完了している必要があります。学習者は、確率と期待値、基本的な線形代数、基本的な微積分、Python 3.0 (少なくとも 1 年)、および疑似コードからのアルゴリズムの実装にも慣れている必要があります。

このコースの終わりまでに、あなたはできるようになるでしょう：

-教師あり学習アプローチを使用して値関数を近似する方法を理解する
-関数近似による予測（値推定）の目的を理解する
- 無限の状態空間（連続状態空間）を持つ環境上で、関数近似（状態集約）を使用した TD を実装します。
- 特徴構築に対する固定基底とニューラルネットワークのアプローチを理解する
- 連続状態環境におけるニューラルネットワーク関数近似を使用した TD の実装
- 関数近似に移行する際の探索における新たな困難を理解する
- コントロールの割引問題定式化と平均報酬問題定式化を対比する
- 連続状態制御タスクでの関数近似を使用した予想される Sarsa および Q 学習の実装
-政策を直接見積もるための目標（政策勾配目標）を理解する
- 離散状態環境にポリシー勾配法 (Actor-Critic と呼ばれる) を実装する