求解增强学习问题

在介绍完增强学习的基本框架和其中几个关键问题后,我们开始求解增强学习的问题。这里主要介绍一些经典的求解方法,这些方法可以分成两类:已知环境模型和未知环境模型。

对于已知环境模型的问题,我们将介绍迭代法(Policy Iteration)和价值迭代法(Value Iteration),它们被统称为动态规划。

对未知环境模型的问题,我们将介绍蒙特卡罗法(Monte Carlo)和时序差分法(Temporal Differential)。

Last updated