Driven to discover

求解增强学习问题

在介绍完增强学习的基本框架和其中几个关键问题后，我们开始求解增强学习的问题。这里主要介绍一些经典的求解方法，这些方法可以分成两类：已知环境模型和未知环境模型。

对于已知环境模型的问题，我们将介绍迭代法（Policy Iteration）和价值迭代法（Value Iteration），它们被统称为动态规划。

对未知环境模型的问题，我们将介绍蒙特卡罗法（Monte Carlo）和时序差分法（Temporal Differential）。

Previous增强学习的数学表达形式 Next已知环境模型的问题

Last updated 5 years ago