强化学习-多臂老虎机问题

多臂老虎机问题

名词解释

  • stochastic MAB(stationary random rewards MAB)
  • non-stochastic MAB(Adversarial Bandits) 对抗性质,有对手会改变每个臂的收益,根据对手是否与玩家独立可分为oblivious和non-oblivious两种
  • restless 马尔可夫MAB的一种,每个臂都会独立地进行状态转移,无论臂是否被选中
  • rested MAB 马尔可夫MAB的一种,只有被选中的臂进行状态转移,其他臂状态不变,处于冻结状态
  • non-stationary MAB
  • contextual MAB 会带有一定的附属信息,可以根据附属信息来帮助判断选择哪个或哪一类臂
  • variants
  • dualing MAB
  • etc

Bandit算法

  • 汤普森采样
  • e-greedy
  • UCB及其变种
  • COFIBA
  • exp3
  • hedge
  • softmax

基本的Bandit对应

  1. stochastic -- UCB
  2. adversarial -- Exp3
  3. Oblivious: 每个杆变换的分布独立于拉栏者,基本上这种就是撞大运,研究的少
  4. Non-oblivious: 每个杆的分布会一句拉杆者的策略而变化,有点博弈的意思。
  5. Markovian -- Gittins indices