抱歉,您的浏览器无法访问本站
本页面需要浏览器支持(启用)JavaScript
了解详情 >

Dekel'Blog

奔赴山海,保持热爱

强化学习中的策略优化推导

在强化学习(Reinforcement Learning, RL)中,状态值函数的定义经常涉及一个关于策略 的最优化问题。本文将结合数学推导,解释如何从 Bellman 方程推导出最优策略的形式,并说明为什么最优策略是 贪心策略(greedy policy)


1. 从 Bellman 方程出发

我们考虑状态值函数(假设已知一个固定的下一步值函数 ):

其中:

  • :策略,在状态 下选择动作 的概率;
  • :奖励的条件分布;
  • :环境转移概率。

约束条件是:

2. 引入动作值函数

将括号内的部分记作动作值函数

于是值函数可以写成更简洁的形式:

3. 问题转化为线性优化

到这里,我们得到的优化问题是:

约束条件:

这其实就是一个经典的线性规划问题:在概率分布(simplex 单纯形)上对线性目标函数取最大值。

4. 极值的几何直观

线性函数在单纯形上的最优解一定出现在某个极点(vertex)。单纯形的极点就是“所有概率质量集中在一个动作上”,亦即:

因此,最优解就是选择使 达到最大值的动作。

5. 得出最终结果

于是可以直接得到:

最优策略的形式为:

如果存在多个并列最大的动作,则在这些动作之间任意分配概率(例如平均分配)也能获得相同的最优值。

6. 小结

  • 策略优化问题本质上是一个线性优化问题;
  • 线性目标在概率单纯形上的最优解落在极点;
  • 因此,给定 的情况下,最优策略是在最大 对应的动作上取 1 的确定性贪心策略

评论

看完了不如留下点什么吧