Dekel'Blog

强化学习（三.1）贝尔曼最优策略和公式推导

强化学习中的策略优化推导在强化学习（Reinforcement Learning, RL）中，状态值函数的定义经常涉及一个关于策略的最优化问题。本文将结合数学推导，解释如何从 Bellman 方程推导出最优策略的形式，并说明为什么最优策略是贪心策略（greedy policy）。 1. 从 Bellman 方程出发我们考虑状态值函数（假设已知一个固定的下一步值函数...

2025-09-10 学习

阅读全文

强化学习（一）Basic Concepts

test RL