强化学习——每次访问MC方法和首次访问MC方法的相关理论证明
前言
本文主要给出每次访问MC方法和首次访问MC方法的相关理论证明,方便大家从根本上去理解这两种方法。
示例——首次访问MC方法和每次访问MC方法的区别
- 首次访问蒙特卡洛策略评估
在给定一个策略,使用一系列完整episode评估某一个状态 时,对于每一个episode,仅当该状态 首次出现的时间 列入计算:
状态出现的次数加1:
总的收获值更新:
状态 的价值:
当 时,
- 每次访问蒙特卡洛策略评估
在给定一个策略,使用一系列完整的episode评估某一个状态 时,对于每一个episode,状态 每次出现在状态转移链时,例如,一次在时刻 ,一次在时刻 ,则两次对应的 , 都要用于计算 对应的值。
状态出现的次数加1:
总的收获值更新:
状态s的价值:
当 时,
详情请参考:
搬砖的旺财:David Silver 增强学习——Lecture 4 不基于模型的预测首先考虑图1 a)中所示的马尔可夫链,在每一步中,链或者以概率 保持在 中,或者以概率 前往 结束。假设我们想要估计从状态 开始到终止前的预期步数。考虑从估计值函数入手,那么假设每一步都会得到 的奖励,在这种情况下 等于终止前的预期步数。假设已经观察到的唯一数据是由马尔可夫链产生的单个试验——该试验持续4个步骤, 个从 传递到 ,并且 个从 传递到 ,如图2 b)所示。那么两个MC方法从这个试验中将会得出什么结论?
我们假设这些方法不知道马尔可夫链的结构。它们所知道的只是图1 b)中所示的试验。
首次访问MC方法(first-visit MC)实际上观察到的是从第一次访问 到 的单次遍历(singel traversal)。该遍历持续 步,因此其对 的估计为 。
另一方面,每次访问MC方法(every-visit MC)实际上观察到的是从 到 的 个单独的遍历,一个有 个步骤,一个有 个步骤,一个有 个步骤,一个有 个步骤。对这四个有效试验进行平均,每次访问MC方法估计的 为 。
哪个估计值更好呢? 还是 呢?我们将在下面说明,实际上 是无偏的答案, 在统计意义上存在偏差。
接下来计算上例的ML估计。如果马尔可夫链的最大似然模型(如图1 c)所示)完全正确,那么在终止之前期望的时间步数是多少呢?对于每个可能的步数 转移概率的最大似然估计(Maximum-Likelihood estimate,ML estimate)是 , 转移概率的最大似然估计是 。没有观察到其他状态的转移,因此估计它们的概率为 。那么马尔可夫链的最大似然模型如图1 c)所示。
如果马尔可夫过程的最大似然模型完全正确,我们即认为值函数的ML估计是完全正确的。
接下来计算上例的ML估计。如果马尔可夫链的最大似然模型完全正确,那么在终止之前期望的时间步数是多少呢?对于每个可能的步数 ,我们可以计算其发生的概率,然后计算期望:
因此,在该例中,ML估计与首次访问MC方法的估计相同。
定理1 For any undiscounted absorbing Markov chain, the estimates computed by first-visit MC are the reduced-ML estimates, for all states and after all trials.
简化的双状态抽象马尔可夫链
在本文中,我们将介绍如何将任意的undiscounted absorbing Markov chain简化为双状态抽象马尔可夫链(two-state abstracted Markov chain),并将它用在MC方法中。简化的依据是独立关注每个状态。假设我们只对一个状态 的价值感兴趣,并且所有的试验都是从状态 开始。我们可以在不失一般性的情况下做到这一点,因为状态 的价值在试验后的变化不受首次访问该状态之前发生的任何事情的影响。
对于任意的马尔可夫链,试验产生两个序列,一个随机的状态序列, ,以 开头并以 结尾,以及相关的随机奖励序列 。将序列 分成连续的子序列,这些子序列以 开头并在下一次重新访问 之前结束。第 次重新访问 开始的子序列表示为 。最后一个这样的子序列是特殊的,因为它以终止状态结束并表示为 。相应的奖励序列类似地表示为 和 。由于马尔可夫性,对于所有的 , 独立于 ,类似地 独立于 。这是很有意义的,意味着在访问状态 之间实际发生的精确状态序列在首次访问MC方法(或者每次访问MC方法)估计 时不起作用。同样,精确的奖励顺序 也无关紧要,因为在MC方法中只使用了访问状态 之间的奖励总和。
因此,为了便于分析,可以将任意的undiscounted Markov chain简化为图2下面部分所示的双状态抽象链。
首次访问MC方法 first-visit MC
设 代表成对的随机序列 。
首次访问MC方法通过 次试验后得到的序列 估计的 是 。
其中 是随机数,代表第 次重新访问状态 , 是序列 中各个奖励的总和, 是最后一次访问状态 后收到的总的随机奖励。
对于所有的 , 。
首次访问MC方法通过 次试验后得到的序列 估计的 是 。
从字面上的意思来理解, 只是来自 个样本 估计的平均值,由于马尔可夫性,样本是独立的。
每次访问MC方法 every-visit MC
每次访问MC方法通过 次试验得到的序列 估计的 值为 。
其中 是随机数,代表第 次重新访问状态 。每次重新访问 都有效地开始了另一次试验(如图1所示)。因此,在第 次和第 次访问状态 之间发生的奖励在估计时被包括了 次。每次访问MC通过 次试验后得到的序列 估计的 是 。
其中 是第 次试验 中状态 的重访次数。与首次访问MC方法的估计器不同, 次试验的每次访问MC方法的估计器不仅仅是单个试验估计值的平均,这使得它的分析更加复杂。
我们可以得出首次访问MC方法和每次访问MC方法的偏差(Bias)和方差(Var)——它们是试验次数 的函数。 均方误差(Mean Squared Error,MSE)是 。
相关概念说明
和 分别表示与图2中 与 转移有关的随机奖励。
表示从 到 (包括最开始的状态 )可能发生的所有状态序列的集合, 表示从 到 (包括状态 )可能发生的所有状态序列的集合。
和 分别表示在抽象链中终止和循环的概率。
其中 。
定义 。
奖励概率定义如下:
因此:
同理,
如果原始的马尔可夫链中奖励是状态转移的确定性函数,那么存在与每个 相关的单个 。但是,如果原始的马尔可夫链中奖励是随机的,那么存在与每个 相关的一组可能的随机 。还值得注意的是,即使原始的马尔可夫链中的所有个体的奖励都是确定性的, 和 仍然可以大于零,因为 和 将是随机的——从 到 和从 到 存在许多不同的路径。
注意:
(1)
其中 是状态 的重访次数。如果 ,那么
定理2 状态 的值函数(value function)真值是
证明:
图2中状态 的值可以从Bellman方程推导出:
因此,
定理3 首次访问MC方法是无偏的,即
因为从开始状态 到终止状态 的样本路径上的总奖励根据定义是对所有这些路径的期望总奖励的无偏估计。因此,来自 个独立样本路径的估计平均值也是无偏的。
证明:
对于单次试验而言,首次访问MC方法是无偏的,由(1)得:
因为 次试验后的估计值 是 个独立估计样本的平均值,每个估计值都是无偏的,所以 次试验估计也是无偏的。
定理4 每次访问MC方法是有偏的, 次试验后, ( 时每次访问MC方法变为无偏的)
证明:
对于单次试验而言,每次访问MC方法的偏差是:
那么, 。
在 次试验后计算偏差有点复杂,需要用组合数学 的形式表示 。我们可以把 看作是将 分解成 个非负整数的不同方式的个数——其次序被认为是重要的。因此得到, 。进一步假设 是可以获得从 到 的不同方式的数量——可以忽略顺序。注意, 。我们使用上标来区分来自不同试验的奖励,例如, 指的是在第2次试验中第 次和 次访问 之间收到的总的随机奖励。
又,
(2)
以及,
所以得到,
因此 。这也证明了每次访问MC方法在 时是无偏的。
给出(2)的证明:
将 定义为 平方因子的所有因子分解的总和:
存在以下事实:
fact 1:
fact 2:
fact 3:
fact 4:
fact 3和fact 4暗示着,
证明一下:
使用fact 1、fact 2、fact 3,我们可以证明 是递归的解,
因此证明了,
定理5 首次访问MC方法的方差为
证明:
我们首先计算一次试验得到的序列 的方差,
第一项是由于对状态 的重访次数的变化引起的方差,第二项是由于随机奖励引起的方差。在 次试验后首次访问MC方法估计是 次独立试验样本的平均值,因此, 。
定理6 首次访问MC方法的MSE是
定理7 一次试验后每次访问MC方法的方差受到以下限制:
证明:
注意, 。
因此,
定理8 一次试验后, ,因为
定理9 存在 ,使得,对于所有的 ,
推论 存在 ,使得,对于所有的 ,
图3显示了MSE发生交叉的实例。在 时发生交叉。通常,交叉可以在一次试验时发生。例如,如果问题中唯一的非零奖励是终止,则 , ,这反过来暗示 ,对于所有 , ,因此 。
证明:
对于每次访问蒙特卡洛估计,
重写为,
因为,对于所有的 , ,并且, , 。
考虑一个方程,
其中,
值得注意的是,
因此,
利用泰勒展开,
因此,
我们将在下面证明, 是
对于所有的 , 是
的部分即可省略,因为 衰减为 ,所以对于一个较大的 而言,对于所有的 ,
我们将利用以下的事实,除fact 12外不给出证明
fact 5
fact 6 因为
fact 7
fact 8
fact 9
fact 10
fact 11
fact 12
因此,每次访问MC估计的方差的行为是
对比,
给出fact 12的证明:
由fact 10得到,
由fact 9得到,
由fact 8得到,
因此,
小结
参考文献:
【1】Reinforcement Learning with Replacing Eligibility Traces
请大家批评指正,谢谢 ~
4 条评论
您好博主,请问ml估计中的kr是什么呢,没看懂那个ml估计的公式。。。
这么多证明。。。我眼睛已经花了 小姐姐厉害了
博主真厉害!我要消化好久才能懂,学的高工都忘完了