强化学习-概要
强化学习
分类
- Valued-based / policy-based / A3C=A+C
- Model based / Model free
- 回合更新(蒙特卡洛) / 时间差分(步更新)
- On-policy / off-policy
- 稳态和非稳态
- 全部可观测MDP / 部分可观测
DRL:本质把DNN作为一个actor。
特点
- explore and exploit
- Delayed reward
- Time critical(时间处理实现)
- Agent actor稳定提升