求解增强学习问题
在介绍完增强学习的基本框架和其中几个关键问题后,我们开始求解增强学习的问题。这里主要介绍一些经典的求解方法,这些方法可以分成两类:已知环境模型和未知环境模型。
对于已知环境模型的问题,我们将介绍迭代法(Policy Iteration)和价值迭代法(Value Iteration),它们被统称为动态规划。
对未知环境模型的问题,我们将介绍蒙特卡罗法(Monte Carlo)和时序差分法(Temporal Differential)。
Last updated
在介绍完增强学习的基本框架和其中几个关键问题后,我们开始求解增强学习的问题。这里主要介绍一些经典的求解方法,这些方法可以分成两类:已知环境模型和未知环境模型。
对于已知环境模型的问题,我们将介绍迭代法(Policy Iteration)和价值迭代法(Value Iteration),它们被统称为动态规划。
对未知环境模型的问题,我们将介绍蒙特卡罗法(Monte Carlo)和时序差分法(Temporal Differential)。
Last updated