A Painless Q-learning Tutorial (一个 Q-learning 算法的简明教程)

皮果提 2013-07-18 00:08:14

97562

分类专栏：强化学习文章标签： Q-learning state action agent reward


 
      本文是对 http://mnemstudio.org/path-finding-q-learning-tutorial.htm 的翻译，共分两部分，第一部分为中文翻译，第二部分为英文原文。翻译时为方便读者理解，有些地方采用了意译的方式，此外，原文中有几处笔误，在翻译时已进行了更正。这篇教程通俗易懂，是一份很不错的学习理解 Q-learning 算法工作原理的材料。

第一部分：中文翻译

第二部分：英文原文

作者: peghoty

出处: http://blog.csdn.net/peghoty/article/details/9361915

欢迎转载/分享, 但请务必声明文章出处.

点赞 208
评论 34
分享
x
海报分享

扫一扫，分享海报
收藏 360
举报
关注关注
一键三连

已标记关键词清除标记

插入表情

还能输入1000个字符

hai008007:这个例子的学习率是1吧，并不是一般意义上的Q-learning。望楼主回复。（微笑）3 年前回复举报
11
- 火山猫回复:我也感觉学习效率alfa应该是1，衰减值gamma是0.8，这样设置应该是为了简化例子1 年前回复举报
  1

littlelove2013:这只是学习的过程，没有边学边用啊4 年前回复举报
3

lee_LLL:你好图八下面的第一个计算公式中的Q(5,1)，Q(5.4)，Q(5,5)的值是怎么确定的？通过1.1 一步步迭代的吗？2 年前回复举报
2
- 陆仁以回复: Q(5,1)，Q(5.4)，Q(5,5)这些Q表里面的值是通过式子1.1一步步迭代（update）的，但在最开始Q表里面的值全部初始化为零，图八下面的第一个计算公式中Q(5,1)，Q(5.4)，Q(5,5)还未被update到，故他们全为零。2 年前回复举报
  7

o荷塘月色o:看了这么多个Q表的学习资料，只有这个看懂了。15 天前回复举报

写完这道题就睡觉:谢谢2 月前回复举报

Mahui440:第二轮迭代为什么能随机选取初始状态而第三轮不能随机选取2 月前回复举报

jbb0523:建议配合着Tom Mitchell的机器学习（曾华军等译，机械工业出版社）的第13章来学习，效果会更好~5 月前回复举报

码哥 .休.:网上很多博客对一些基础概念、公式跳过不解释，需要一定基础才能看得懂。而此篇思路清晰，简而易懂，受益颇多，感谢！5 月前回复举报

weixin_44974543:懂了，很清楚6 月前回复举报

The Great LY:这里Q-learning不是在选择下一个状态的时候有一个贪婪程度吗？然后每次更新Q的时候都是使用当前的Q加上学习率乘以Q的真实值-预测值6 月前回复举报
- weixin_44974543回复:没用到epsion-greedy算法吧6 月前回复举报

登录查看 34 条热评