强化学习之价值函数近似与DQN

强化学习之价值函数近似与DQN

强化学习中的查表法只适用于规模较小的问题。生活中有许多实际问题要复杂得多,有些是属于状态数量巨大甚至是连续的,有些行为数量较大或者是连续的。这些问题要是使用SARSA,DP,Q-learning等基本算法效率会很低,甚至会无法得到较好的解决。因此需要用价值函数近似求解那些状态数量多或者是连续状态的强化学习问题。