强化学习-多臂老虎机问题 Oct 12, 2019 · 强化学习 · 分享到: 多臂老虎机问题 名词解释 Bandit算法 基本的Bandit对应 名词解释 stochastic MAB(stationary random rewards MAB) non-stochastic MAB(Adversarial Bandits) 对抗性质,有对手会改变每个臂的收益,根据对手是否与玩家独立可分为oblivious和non-oblivious两种 restless 马尔可夫MAB的一种,每个臂都会独立地进行状态转移,无论臂是否被选中 rested MAB 马尔可夫MAB的一种,只有被选中的臂进行状态转移,其他臂状态不变,处于冻结状态 non-stationary MAB contextual MAB 会带有一定的附属信息,可以根据附属信息来帮助判断选择哪个或哪一类臂 variants dualing MAB etc Bandit算法 汤普森采样 e-greedy UCB及其变种 COFIBA exp3 hedge softmax 基本的Bandit对应 stochastic -- UCB adversarial -- Exp3 Oblivious: 每个杆变换的分布独立于拉栏者,基本上这种就是撞大运,研究的少 Non-oblivious: 每个杆的分布会一句拉杆者的策略而变化,有点博弈的意思。 Markovian -- Gittins indices