强化学习中的策略优化推导
在强化学习(Reinforcement Learning,
RL)中,状态值函数的定义经常涉及一个关于策略
1. 从 Bellman 方程出发
我们考虑状态值函数(假设已知一个固定的下一步值函数
其中:
:策略,在状态 下选择动作 的概率; :奖励的条件分布; :环境转移概率。
约束条件是:
2. 引入动作值函数
将括号内的部分记作动作值函数
于是值函数可以写成更简洁的形式:
3. 问题转化为线性优化
到这里,我们得到的优化问题是:
约束条件:
这其实就是一个经典的线性规划问题:在概率分布(simplex 单纯形)上对线性目标函数取最大值。
4. 极值的几何直观
线性函数在单纯形上的最优解一定出现在某个极点(vertex)。单纯形的极点就是“所有概率质量集中在一个动作上”,亦即:
因此,最优解就是选择使
5. 得出最终结果
于是可以直接得到:
最优策略的形式为:
如果存在多个并列最大的动作,则在这些动作之间任意分配概率(例如平均分配)也能获得相同的最优值。
6. 小结
- 策略优化问题本质上是一个线性优化问题;
- 线性目标在概率单纯形上的最优解落在极点;
- 因此,给定
的情况下,最优策略是在最大 对应的动作上取 1 的确定性贪心策略。