サンプルベースの学習方法| 大学ネットワーク

説明

このコースでは、環境との試行錯誤の相互作用に基づいて、ほぼ最適なポリシーを学習できるいくつかのアルゴリズムについて学習します。エージェント自身の経験から学習します。実際の経験から学ぶことは、環境のダイナミクスに関する事前の知識を必要とせず、それでも最適な動作を達成できるため、印象的です。直感的にシンプルで強力なモンテカルロ法と、Q学習を含む時間差学習法について説明します。このコースの締めくくりとして、モデルベースの計画（動的計画法と同様）と時間差の更新を組み合わせて学習を根本的に加速できるアルゴリズムという、両方の世界を最大限に活用する方法を調査します。

このコースを修了すると、次のことができるようになります。

–サンプリングされた経験から価値関数を推定するためのXNUMXつの戦略として、時間差学習とモンテカルロを理解する
–モデル内で動的計画法のスイープではなく、サンプリングされたエクスペリエンスを使用する場合は、探索の重要性を理解します
–モンテカルロと動的計画法およびTDの間の接続を理解します。
–値関数を推定するために、TDアルゴリズムを実装および適用します
–期待されるサルサとQ学習を実装して適用する（制御のためのXNUMXつのTDメソッド）
–オンポリシー制御とオフポリシー制御の違いを理解する
–（従来の計画戦略とは対照的に）シミュレートされた経験で計画を理解する
–シミュレートされたエクスペリエンスを使用するDynaと呼ばれるRLへのモデルベースのアプローチを実装します
–実証研究を実施して、Dynaを使用した場合のサンプル効率の改善を確認します。