A Painless Q-learning Tutorial (一个 Q-learning 算法的简明教程)

 
      本文是对 http://mnemstudio.org/path-finding-q-learning-tutorial.htm 的翻译,共分两部分,第一部分为中文翻译,第二部分为英文原文。翻译时为方便读者理解,有些地方采用了意译的方式,此外,原文中有几处笔误,在翻译时已进行了更正。这篇教程通俗易懂,是一份很不错的学习理解 Q-learning 算法工作原理的材料。


第一部分:中文翻译



第二部分:英文原文



作者: peghoty 

出处: http://blog.csdn.net/peghoty/article/details/9361915

欢迎转载/分享, 但请务必声明文章出处.

已标记关键词 清除标记
  • hai008007
    hai008007:这个例子的学习率是1吧,并不是一般意义上的Q-learning。望楼主回复。(微笑)3 年前回复举报
    11
    • qq_43320218
      火山猫回复:我也感觉学习效率alfa应该是1,衰减值gamma是0.8,这样设置应该是为了简化例子1 年前回复举报
      1
  • lee_LLL
    lee_LLL:你好 图八下面的第一个计算公式中的Q(5,1),Q(5.4),Q(5,5)的值是怎么确定的?通过1.1 一步步迭代的吗?2 年前回复举报
    2
    • sinat_40282753
      陆仁以回复: Q(5,1),Q(5.4),Q(5,5)这些Q表里面的值是通过式子1.1一步步迭代(update)的,但在最开始Q表里面的值全部初始化为零,图八下面的第一个计算公式中Q(5,1),Q(5.4),Q(5,5)还未被update到,故他们全为零。2 年前回复举报
      7
  • Mahui440
    Mahui440:第二轮迭代为什么能随机选取初始状态 而第三轮不能随机选取2 月前回复举报
  • jbb0523
    jbb0523:建议配合着Tom Mitchell的机器学习(曾华军 等译,机械工业出版社)的第13章来学习,效果会更好~5 月前回复举报
  • a806689294
    码哥.休.:网上很多博客对一些基础概念、公式跳过不解释,需要一定基础才能看得懂。而此篇思路清晰,简而易懂,受益颇多,感谢!5 月前回复举报
  • qq_41006485
    The Great LY:这里Q-learning不是在选择下一个状态的时候有一个贪婪程度吗?然后每次更新Q的时候都是使用当前的Q加上学习率乘以Q的真实值-预测值6 月前回复举报
  • <
  • 1
  • 2
  • 3
  • >
相关推荐
©️2020 CSDN 皮肤主题: 大白 设计师:CSDN官方博客 返回首页

举报

选择你想要举报的内容(必选)
  • 内容涉黄
  • 政治相关
  • 内容抄袭
  • 涉嫌广告
  • 内容侵权
  • 侮辱谩骂
  • 样式问题
  • 其他
新手
引导
客服 举报 返回
顶部

举报

选择你想要举报的内容(必选)
  • 样式问题
  • 侮辱谩骂
  • 涉嫌广告
  • 内容抄袭
  • 政治相关
  • 内容涉黄
  • 内容侵权
  • 其他
网页地址已保存